Hemos visto cómo buscar secuencias mediante palabras clave. Pero en Bioinformática es más frecuente tener como dato de partida una secuencia parcial sin anotar, es decir una secuencia anónima. En este caso se hace necesario hacer un ‘rastreo’ de toda la base de datos de secuencias conocidas. Para ello es necesario alinear nuestra secuencia problema con todas y cada una de las secuencias que hay en la base de datos. Esto se consigue mediante los algoritmos de alineamiento local: FASTA y BLAST. Veamos como se usan estos programas.
FASTA | EBI, Cambridge |
BLASTn (DNA) | NCBI, USA |
BLASTp (proteínas) | NCBI, USA |
Secuencias para los ejercicios del BLAST
Secuencia anónima de proteína:
MEEDRNWIVV PTWRVPGRME KWHALVKYLK YRTKDLEEVR YVPHHKVGWA WWTCSRVIFP
LQGKSHLEIQ AYWNLTPEKG WLSSHAVRLT WYTEKFWTDV TPDCADILIH STYFSCFTAG
EVRRAIRGEK LLSCCNYPQA HKAQVPSLQY LALVVVQQND RPQ
Preguntas:
- ¿De gen se trata y a que especie pertenece?
- ¿Este gen tiene homólogos en otras especies?
- ¿Este gen tiene variación transcripcional y diferentes isoformas a nivel de proteína?
- ¿La secuencia anónima corresponde perfectamente a la secuencia de la base de datos?
Buscar información de un gen en NCBI gene
Preguntas:
- ¿Qué es la función de este gen?
- ¿El gen tiene homólogos en otras especies?
- ¿En que tejidos se expresa?
- ¿Con que otros genes interactua a nivel de proteína?
- ¿Cuantas isoformas tiene?
Generar un alineamiento local usando el algoritmo de Smith-Waterman
Secuencias: NP_009231.2 y NP_009225.1
Preguntas
- ¿A que corresponde el hueco en el alineamiento?
- ¿Podemos determinar el tipo de splicing?
Trabajar con las secuencias anónimas
Secuencia anónima 3 (anon3.txt)
- Usar Blast para averiguar la especie y si es posible la cepa a la que pertenece la secuencia anónima 3
- Averiguar a que corresponden las estructuras de G+C (‘picos’ en %G+C) encontradas en la secuencia (usar extractseq para generar las subsecuencias que corresponden a los picos en %G+C)
Secuencia anónima 2
Paso 1: Búsqueda de la secuencia (anon2) en el genoma mediante BLAT
Preguntas:
- ¿A que cromosoma y coordenadas corresponde esta secuencia?
Paso 2: analizar la región mediante el navegador genómico
Preguntas:
- ¿Qué gen contiene la secuencia?
- ¿Qué función tiene este gen, y/o a que enfermedad(es) está asociado?
- ¿Contiene una isla CpG?
- ¿Existen anotaciónes de elementos reguladores?
- ¿Que porcentaje de la secuencia corresponde a elementos transponibles?
- ¿Que G+C tienen los exones?¿Y los intrones?
Acceso a los datos mediante el Table Browser/Genome Browser:
- Descargar la secuencia (Genome Browser)
- Obtener una anotación en formato BED
- Obtener una anotación (formato libre)
- Obtener las secuencias de una anotación
Tareas para las secuencias asignadas
- Determinar la especie/cepa del genoma ensamblado
- Determinar las coordenadas cromosómicas (secuencia humana)