Alineamiento local: Rastreo de bases de datos

Hemos visto cómo buscar secuencias mediante palabras clave. Pero en Bioinformática es más frecuente tener como dato de partida una secuencia parcial sin anotar, es decir una secuencia anónima. En este caso se hace necesario hacer un ‘rastreo’ de toda la base de datos de secuencias conocidas. Para ello es necesario alinear nuestra secuencia problema con todas y cada una de las secuencias que hay en la base de datos. Esto se consigue mediante los algoritmos de alineamiento local: FASTA y BLAST. Veamos como se usan estos programas.

Secuencia anónima de ADN:

>adn1
GGAAAACTAA GACTCCTTCG CCTTCTGCAC CAGACAAGTG AGTATGGAGC CTGGTAGGAA
TCAGCTGTTT GTTGTCATTT TACTAACAAG TGCTTGCTTA GTATATTGTA GCCAGTATGT
GACTGTTTTC TATGGCATAC CCGCGTGGAA AAATGCATCT ATTCCCTTAT TTTGTGCAAC
TAAAAATAGA GACACTTGGG GGACCATACA GTGCTTGCCA GACAATGATG ATTATCAGGA
AATAATTTTA AATGTGACAG AGGCTTTTGA TGCATGGAAT AATACAGTGA CAGAACAAGC
AGTAGAAGAT GTCTGGCATC TATTTGAGAC ATCAATAAAA CCATGTGTCA AGCTAACACC
TCTATGTGTG GCAATGAATT GTAGCAGGGT TCAAGGGAAT ACCACGACCC CGAATCCCAG
GACCTCGAGT TCCACAACCT CGAGACCACC CACATCCGCA GCCTCCATAA TAAATGAAAC
TTCTAACTGC ATAGAAAACA ACACATGCGC AGGATTAGGG TATGAGGAGA TGATGCAATG
TGAGTTCAAT ATGAAGGGGT TAGAACAAGA TAAGAAAAGG AGGTATAAGG ACACATGGTA
TTTAGAAGAT GTGGTTTGTG ACAACACAAC AGCTGGCACA TGTTACATGA GACATTGCAA
CACATCAATC ATCAAAGAGT CATGTGATAA GCACTATTGG GATGCTATGA GGTTTAGATA

Secuencia anónima de proteína:

>prot1
MEEDRNWIVV PTWRVPGRME KWHALVKYLK YRTKDLEEVR YVPHHKVGWA WWTCSRVIFP
LQGKSHLEIQ AYWNLTPEKG WLSSHAVRLT WYTEKFWTDV TPDCADILIH STYFSCFTAG
EVRRAIRGEK LLSCCNYPQA HKAQVPSLQY LALVVVQQND RPQ

Ejercicios

Rastrea las bases de datos de nucleótidos usando los algoritmos FASTAn y BLASTn para determinar la identidad de la secuencia problema adn1. ¿De dónde proviene la secuencia problema? ¿Existen diferencias en los resultados de ambos algoritmos?
Rastrea las bases de datos de proteínas usando los algoritmos FASTAp y BLASTp para determinar la identidad de la secuencia problema prot1. ¿De dónde proviene la secuencia problema? ¿Existen diferencias en los resultados de ambos algoritmos?
Rastrea las bases de datos de nucleótidos usando el algoritmo tBLASTn para determinar la identidad de la secuencia problema prot1. ¿Son los resultados similares a los obtenidos por BLASTn?