Estrategias para la búsqueda computacional de genes
Directa
- Emparejamiento más o menos exacto con EST, cDNA o proteínas del mismo organismo o de otros relacionados
Indirecta
- Homología con otros genes conocidos
- Búsqueda de algo que se parece a un modelo teórico de gen (ab initio)
- Híbrida, combinando homología y búsqueda ab initio (y quizas también evidencia experimental)
¿Qué podemos medir para predecir genes?
No existe aún la herramienta perfecta para predecir genes: todo se basa en ‘señales débiles’.
Genes codificadores de proteínas:
- ORFs (Open Reading Frames)
- Uso de codones
- Frecuencias de nucleótidos y correlaciones
Sitios funcionales:
- Sitios de splicing, promotores, UTRs, sitios de poliadenilación
Datos de ejemplo
- Genoma de E. coli
- Genome de Rickettsia massiliae
- Gen LAMC2 (secuencia)
- Gen LAMC2 (mapa en UCSC)
- Rodopsina de Xenopus
- Region genómica de hg19: (chrY:2,654,671-2,656,016)
- Secuencia anónima (ORFfinder)
- Secuencia anónima (multi exon)
Predicción de ORFs
La primera tarea para predecir genes en una secuencia anónima es localizar los marcos abiertos de lectura, es decir segmentos de ADN libres de codones de stop en alguna de las fases (Open Reading Frames, ORFs).
- ORF Finder – NCBI, USA
- FramePlot – NIH, Japón
Para practicar con estos programas, utilizaremos:
- Secuencia anónima (ORFfinder)
- Las primeras 10 kbp de E. coli. Compararemos los resultados con la propia anotación de este genoma.
Genes procarióticos
- GeneMarkS-2
- GeneMark.hmm – Atlanta, USA
- Artículo
Para practicar con este programa, utilizaremos las primeras 10 kbp de E. coli. Posteriormente, podemos explorar otras regiones.
Genes nocodificantes
cmscan --rfam --cut_ga --nohmmonly --tblout mrum-genome.tblout --fmt 2 --clanin /home/biocomp/RFAM/Rfam.clanin /home/biocomp/RFAM/Rfam.cm /home/biocomp/bioinfo_genomas/26_1000.fa
Genes eucarióticos
Programas | Ejercicios |
---|---|
NetGene2 |
|
GenScan | Utilizaremos para practicar la secuencia del gen LAMC2 (ver datos de ejemplo) y comparar la predicción obtenida con el mapa en el navegador de la UCSC |
GeneID | Utilizaremos alguna de las secuencias de vertebrados que se muestran en los datos de ejemplo y comparar la predicción obtenida con su anotación |