A metodologia aplicada á bioinformática
Consiste na existência de softwares
considerados como padrão para a análise de dados em biologia molecular. Estes
programas funcionariam como um "molde" que, em geral, sofre
modificações e adaptações para, gradativamente, adequar suas características às
necessidades específicas de cada espécie pesquisada. O profissional da área tem
que saber explorar tanto a aplicação e desenvolvimento do programa quanto às
questões biológicas envolvidas, para que as perguntas possam ser respondidas.
Estes softwares são específicos para a comparação de seqüências biológicas,
(nucleotídeos do DNA e aminoácidos de proteínas), visando obter informações
sobre função, montagem de genomas e inferências filogenéticas. Exemplos destes
tipos de programas são BLAST, CLUSTAL, PHRED, PHRAP, CONSED, CAP3, dentre
outros.
Alguns programas têm como objetivo a análise da expressão gênica, visando obter
padrões e genes específicos à determinada condição, como, por exemplo, de uma célula
tumoral, de outro tipo celular específico ou da resposta de um organismo a uma
agressão ambiental. Ex: Bioconductor Project, TIGR T4. Em geral, estes
programas são agrupados em pacotes de diversos programas.
Os principais programas utilizados, geralmente, são os softwares desenvolvidos
exclusivamente para esta função. Eles são elaborados na plataforma Unix ou
Linux, que têm uma interface menos "amigável", ou seja, são mais
difíceis de serem operados em relação aos programas convencionais, mas
possibilitam uma maior capacidade de intervenção do pesquisador para atender a
suas exigências.
O PERL (Practical Extract and Report Language) é uma linguagem de
programação, simples e muito rica. Foi criada por Larry Wall, originalmente
para produzir relatórios de informações de erros, que a disponibilizou na
internet no espírito freeware, pensando que alguém pudesse achá-la útil. Ao
longo dos anos esta linguagem conquistou milhares de adeptos e, através de
várias colaborações recebidas para seu aprimoramento, o PERL é hoje conceituado
como uma linguagem sofisticada, que possui como ponto forte a manipulação de
texto, mas que, além disso, possui todas as características de uma linguagem de
alto nível genérica. É essa grande facilidade para a manipulação de texto que
fez do PERL a linguagem mais utilizada no tratamento de dados de seqüências de
DNA e proteínas.
Uma vez obtidos os dados do seqüenciamento das moléculas de DNA, é preciso
saber o que representa cada uma das seqüências nucleotídicas produzidas. A
anotação consiste simplesmente no processo de identificação dessas seqüências.
Em projetos genoma, este processo normalmente é realizado em três etapas:
anotação de seqüências de nucleotídeos, de seqüências protéicas e de processos
biológicos.
Na primeira etapa trabalham apenas as ferramentas de bioinformática,
funcionando em larga escala, como uma fábrica. Assim, as seqüências obtidas
passam por uma grande diversidade de programas, que devem ajudar os anotadores
a identificá-las e agrupá-las para a próxima fase. A segunda etapa necessita de
especialistas que observem os dados obtidos na primeira etapa pelas ferramentas
automáticas e que, como curadores de um museu, identifiquem as seqüências de
acordo com critérios pré-definidos.
Após a identificação dos genes, é feita a anotação dos processos. Nesse momento
deve-se promover a interação entre vários anotadores, bioinformatas e biólogos
especialistas em diferentes áreas e no organismo estudado. Nessa fase, deve-se
discutir como as informações obtidas nas etapas anteriores podem estar
relacionadas com a biologia do organismo em questão.
Exemplo de programa PERL para obter a fita reversa complementar a partir de uma
seqüência de DNA desejada:
#!/usr/bin/perl
# Seqüência que se deseja utilizar
$meuDNA= .TTCCGAGCCAATTGTATCAGTTGCCAATAG.;
# Inverte a ordem da seqüência de DNA
$RevCom = reverse $meuDNA;
# Troca as bases produzindo a fita complementar
$RevCom =~ tr/ACGT/TGCA/;
print . Minha seqüência invertida é: \n $RevCom.;
A primeira linha é obrigatória e diz ao programa o caminho
onde se encontra o interpretador PERL para que o programa possa achá-lo na hora
de sua execução. As linhas seguintes que se iniciam com o sinal de
"#" representam linhas de comentário. As variáveis em PERL são sempre
seguidas do sinal de "$" e não precisam ser declaradas, cabe ao
programador saber como e em que contexto devem ser utilizadas. Os comandos
terminam sempre com ponto-e-vírgula e o sinal de "=~" está
relacionado à utilização de uma expressão regular.
Revista Biotecnologia Ciência & Desenvolvimento edição
29 / Bioinformática: Manual do Usuário
Principais Sistemas de Gerenciamento de Bancos de dados:
MySQLhttp://www.mysql.org
Acesso livre para download do gerenciador MySQL, como também
a várias ferramentas de conexão como:DBI,Java,ODBCeetc. Apresenta documentação
completa.
PostgreSQLhttp://www.pgsql.com/
Acesso livre para download do gerenciador PostgreSQL, como
também algumas ferramentas. Apresenta documentação completa.
ORACLEhttp://www.oracle.com
Informações comerciais sobre o banco de dados.
MicrosoftSQLServer http://www.microsoft.com/sql/
Informações comerciais sobre o banco de dados.
Revista Biotecnologia Ciência & Desenvolvimento edição
29 / Bioinformática: Manual do Usuário
Bancos de dados mais utilizados em bioinformática:
Genbankhttp://www.ncbi.nlm.nih.gov/
Banco de dados americano de seqüências de DNA e proteínas.
EBI http://www.ebi.ac.uk/
Banco de dados europeu de seqüências de DNA.
DDBJhttp://www.ddbj.nig.ac.jp/
Banco de dados japonês de seqüências de DNA.
PDBhttp://www.rcsb.org/pdb
Armazena estruturas tridimensionais resolvidas de proteínas.
GDBhttp://gdbwww.gdb.org/
Banco de dados oficial do projeto genoma humano.
SWISS-PROThttp://www.expasy.ch/spro/
Armazena seqüências de proteínas e suas respectivas
características
moleculares, anotado manualmente por uma equipe de
especialistas.
KEGGhttp://www.genome.ad.jp/kegg/
Banco com dados de seqüências de genomas de vários
organismos diferentes e informações relacionadas às suas vias metabólicas.
Revista Biotecnologia Ciência & Desenvolvimento edição
29 / Bioinformática: Manual do Usuário
Métodos para identificar e caracterizar proteínas:
MALDI E ESI:
MALDI - Matrix-Assisted Laser Desorption-Ionization:
Uma amostra de proteína ou peptídeo é misturada com um largo
excesso de uma matriz, formada por uma substância que absorve no ultra-violeta,
e posta para secar. Um laser com um comprimento de onda que seja absorvido pela
matriz, em um compartimento sob vácuo, incide sobre a amostra seca e fragmentos
ionizados da amostra são carreados pela vaporização da matriz e capturados por
um campo elétrico do analisador de massas.
ESI - ElectroSpray Ionization:
Uma voltagem aplicada em uma fina agulha contendo uma
solução protéica gera uma névoa de pequenas gotículas da solução, contendo
pequeno número de moléculas protéicas. A redução das gotículas por evaporação
acaba colocando em fase gasosa as proteínas ionizadas. Elas são então
capturadas pelo analisador de massas. A grande vantagem desta técnica é
permitir o acoplamento direto de um sistema cromatográfico de alta eficiência
ao espectrômetro de massas, possibilitando a análise em fluxo contínuo de
misturas protéicas complexas.
Revista Biotecnologia Ciência & Desenvolvimento edição
29 / Bioinformática: Manual do Usuário
Principais softwares utilizados durante a anotação gênica:
RepeatMaskerhttp://repeatmasker.genome.washington.edu/
Utilizado para a identificação e o mascaramento de regiões
repetitivas freqüentemente encontradas em genomas.
Genscanhttp://genes.mit.edu/GENSCAN.html
Utilizado para a predição de genes em genomas eucarióticos.
Seu método de predição é baseado em cadeias escondidas de Markov.
tRNAscan-SE http://www.genetics.wustl.edu/eddy/tRNAscan-SE/
Utilizado para encontrar genes de tRNA em uma seqüência
genômica.
BLASThttp://www.ncbi.nlm.nih.gov/BLAST
Utilizado para encontrar similaridades entre seqüências de
nucleotídeos e proteínas contra bancos de dados com grande número de seqüências
dos mais diversos organismos. É um dos principais programas utilizados na
identificação dos genes.
Interpro http://www.ebi.ac.uk/interpro
Utilizado para realizar buscas contra diferentes bancos de
dados de domínios e famílias de proteínas. Integra os serviços do Pfam, PRINTS,
ProDom, PROSITE, SMART, TIGRFAMs e SWISS-PROT.
GeneOntologyhttp://www.geneontology.org
Consórcio destinado a produzir um vocabulário comum a ser
aplicado para a classificação dos genes presentes em organismos eucarióticos.
Cada gene é classificado em três níveis: função molecular, processos celulares
e localização celular.
Revista Biotecnologia Ciência & Desenvolvimento edição
29 / Bioinformática: Manual do Usuário