Tecnologia do Blogger.

terça-feira, 5 de junho de 2012

Metodologia

 

A metodologia aplicada á bioinformática

Consiste na existência de softwares considerados como padrão para a análise de dados em biologia molecular. Estes programas funcionariam como um "molde" que, em geral, sofre modificações e adaptações para, gradativamente, adequar suas características às necessidades específicas de cada espécie pesquisada. O profissional da área tem que saber explorar tanto a aplicação e desenvolvimento do programa quanto às questões biológicas envolvidas, para que as perguntas possam ser respondidas.
Estes softwares são específicos para a comparação de seqüências biológicas, (nucleotídeos do DNA e aminoácidos de proteínas), visando obter informações sobre função, montagem de genomas e inferências filogenéticas. Exemplos destes tipos de programas são BLAST, CLUSTAL, PHRED, PHRAP, CONSED, CAP3, dentre outros.
Alguns programas têm como objetivo a análise da expressão gênica, visando obter padrões e genes específicos à determinada condição, como, por exemplo, de uma célula tumoral, de outro tipo celular específico ou da resposta de um organismo a uma agressão ambiental. Ex: Bioconductor Project, TIGR T4. Em geral, estes programas são agrupados em pacotes de diversos programas.
Os principais programas utilizados, geralmente, são os softwares desenvolvidos exclusivamente para esta função. Eles são elaborados na plataforma Unix ou Linux, que têm uma interface menos "amigável", ou seja, são mais difíceis de serem operados em relação aos programas convencionais, mas possibilitam uma maior capacidade de intervenção do pesquisador para atender a suas exigências.
O PERL (Practical Extract and Report Language) é uma linguagem de programação, simples e muito rica. Foi criada por Larry Wall, originalmente para produzir relatórios de informações de erros, que a disponibilizou na internet no espírito freeware, pensando que alguém pudesse achá-la útil. Ao longo dos anos esta linguagem conquistou milhares de adeptos e, através de várias colaborações recebidas para seu aprimoramento, o PERL é hoje conceituado como uma linguagem sofisticada, que possui como ponto forte a manipulação de texto, mas que, além disso, possui todas as características de uma linguagem de alto nível genérica. É essa grande facilidade para a manipulação de texto que fez do PERL a linguagem mais utilizada no tratamento de dados de seqüências de DNA e proteínas.
Uma vez obtidos os dados do seqüenciamento das moléculas de DNA, é preciso saber o que representa cada uma das seqüências nucleotídicas produzidas. A anotação consiste simplesmente no processo de identificação dessas seqüências. Em projetos genoma, este processo normalmente é realizado em três etapas: anotação de seqüências de nucleotídeos, de seqüências protéicas e de processos biológicos.
Na primeira etapa trabalham apenas as ferramentas de bioinformática, funcionando em larga escala, como uma fábrica. Assim, as seqüências obtidas passam por uma grande diversidade de programas, que devem ajudar os anotadores a identificá-las e agrupá-las para a próxima fase. A segunda etapa necessita de especialistas que observem os dados obtidos na primeira etapa pelas ferramentas automáticas e que, como curadores de um museu, identifiquem as seqüências de acordo com critérios pré-definidos.
Após a identificação dos genes, é feita a anotação dos processos. Nesse momento deve-se promover a interação entre vários anotadores, bioinformatas e biólogos especialistas em diferentes áreas e no organismo estudado. Nessa fase, deve-se discutir como as informações obtidas nas etapas anteriores podem estar relacionadas com a biologia do organismo em questão.
Exemplo de programa PERL para obter a fita reversa complementar a partir de uma seqüência de DNA desejada:
#!/usr/bin/perl
# Seqüência que se deseja utilizar
$meuDNA= .TTCCGAGCCAATTGTATCAGTTGCCAATAG.;
# Inverte a ordem da seqüência de DNA
$RevCom = reverse $meuDNA;
# Troca as bases produzindo a fita complementar
$RevCom =~ tr/ACGT/TGCA/;
print . Minha seqüência invertida é: \n $RevCom.;
A primeira linha é obrigatória e diz ao programa o caminho onde se encontra o interpretador PERL para que o programa possa achá-lo na hora de sua execução. As linhas seguintes que se iniciam com o sinal de "#" representam linhas de comentário. As variáveis em PERL são sempre seguidas do sinal de "$" e não precisam ser declaradas, cabe ao programador saber como e em que contexto devem ser utilizadas. Os comandos terminam sempre com ponto-e-vírgula e o sinal de "=~" está relacionado à utilização de uma expressão regular.
Revista Biotecnologia Ciência & Desenvolvimento edição 29 / Bioinformática: Manual do Usuário
Principais Sistemas de Gerenciamento de Bancos de dados:
MySQLhttp://www.mysql.org
Acesso livre para download do gerenciador MySQL, como também a várias ferramentas de conexão como:DBI,Java,ODBCeetc. Apresenta documentação completa.
PostgreSQLhttp://www.pgsql.com/
Acesso livre para download do gerenciador PostgreSQL, como também algumas ferramentas. Apresenta documentação completa.
ORACLEhttp://www.oracle.com
Informações comerciais sobre o banco de dados.
MicrosoftSQLServer http://www.microsoft.com/sql/
Informações comerciais sobre o banco de dados.
Revista Biotecnologia Ciência & Desenvolvimento edição 29 / Bioinformática: Manual do Usuário
Bancos de dados mais utilizados em bioinformática:
Genbankhttp://www.ncbi.nlm.nih.gov/
Banco de dados americano de seqüências de DNA e proteínas.
EBI http://www.ebi.ac.uk/
Banco de dados europeu de seqüências de DNA.
DDBJhttp://www.ddbj.nig.ac.jp/
Banco de dados japonês de seqüências de DNA.
PDBhttp://www.rcsb.org/pdb
Armazena estruturas tridimensionais resolvidas de proteínas.
GDBhttp://gdbwww.gdb.org/
Banco de dados oficial do projeto genoma humano.
SWISS-PROThttp://www.expasy.ch/spro/
Armazena seqüências de proteínas e suas respectivas características
moleculares, anotado manualmente por uma equipe de especialistas.
KEGGhttp://www.genome.ad.jp/kegg/
Banco com dados de seqüências de genomas de vários organismos diferentes e informações relacionadas às suas vias metabólicas.
Revista Biotecnologia Ciência & Desenvolvimento edição 29 / Bioinformática: Manual do Usuário
Métodos para identificar e caracterizar proteínas:
MALDI E ESI:
MALDI - Matrix-Assisted Laser Desorption-Ionization:
Uma amostra de proteína ou peptídeo é misturada com um largo excesso de uma matriz, formada por uma substância que absorve no ultra-violeta, e posta para secar. Um laser com um comprimento de onda que seja absorvido pela matriz, em um compartimento sob vácuo, incide sobre a amostra seca e fragmentos ionizados da amostra são carreados pela vaporização da matriz e capturados por um campo elétrico do analisador de massas.
ESI - ElectroSpray Ionization:
Uma voltagem aplicada em uma fina agulha contendo uma solução protéica gera uma névoa de pequenas gotículas da solução, contendo pequeno número de moléculas protéicas. A redução das gotículas por evaporação acaba colocando em fase gasosa as proteínas ionizadas. Elas são então capturadas pelo analisador de massas. A grande vantagem desta técnica é permitir o acoplamento direto de um sistema cromatográfico de alta eficiência ao espectrômetro de massas, possibilitando a análise em fluxo contínuo de misturas protéicas complexas.
Revista Biotecnologia Ciência & Desenvolvimento edição 29 / Bioinformática: Manual do Usuário
Principais softwares utilizados durante a anotação gênica:
RepeatMaskerhttp://repeatmasker.genome.washington.edu/
Utilizado para a identificação e o mascaramento de regiões repetitivas freqüentemente encontradas em genomas.
Genscanhttp://genes.mit.edu/GENSCAN.html
Utilizado para a predição de genes em genomas eucarióticos. Seu método de predição é baseado em cadeias escondidas de Markov.
tRNAscan-SE http://www.genetics.wustl.edu/eddy/tRNAscan-SE/
Utilizado para encontrar genes de tRNA em uma seqüência genômica.
BLASThttp://www.ncbi.nlm.nih.gov/BLAST
Utilizado para encontrar similaridades entre seqüências de nucleotídeos e proteínas contra bancos de dados com grande número de seqüências dos mais diversos organismos. É um dos principais programas utilizados na identificação dos genes.
Interpro http://www.ebi.ac.uk/interpro
Utilizado para realizar buscas contra diferentes bancos de dados de domínios e famílias de proteínas. Integra os serviços do Pfam, PRINTS, ProDom, PROSITE, SMART, TIGRFAMs e SWISS-PROT.
GeneOntologyhttp://www.geneontology.org
Consórcio destinado a produzir um vocabulário comum a ser aplicado para a classificação dos genes presentes em organismos eucarióticos. Cada gene é classificado em três níveis: função molecular, processos celulares e localização celular.
Revista Biotecnologia Ciência & Desenvolvimento edição 29 / Bioinformática: Manual do Usuário

0 comentários

Postar um comentário