Análisis básico de secuencias – Análisis de secuencias

Una vez que sabemos acceder y extraer secuencias de las distintas bases de datos, vamos a empezar a analizarlas.

EMBOSS

Usaremos diferentes programas del paquete de software EMBOSS.

Algunos programas de EMBOSS

Secuencia de ejemplo: genoma completo del HIV

infoseq: ¿Cuál es el %GC del genoma del HIV? ¿Y su longitud?
extractseq: ¿Podrías extraer los CDS e intrones del gen tat del HIV? ¿Cuál es su composición en GC%? Explica el resultado observado
revseq: Genera la secuencia complementaria inversa del HIV

Ejercicio

Utilizando extractseq, haga el splicing del gen de la rodopsina de Xenopus y extraiga la CDS completa.
Use plotorf para visualizar las ORFs en la CDS obtenida y confirmar que el splicing ha sido correcto.
También puede utilizar cusp (véase más adelante) para contar los codones y confirmar que esta CDS tiene un solo codon de stop al final de la secuencia.

Análisis composicional

Ya hemos visto en el tema anterior como se determina la longitud y el contenido global en G+C (%GC) de una secuencia (infoseq). También es interesante determinar la variación espacial del %GC a lo largo de una secuencia (freak). ¿Qué observamos en el freak de la secuencia del HIV? ¿Qué explicación podríamos darle a priori a esa distribución?

La composición de una secuencia de ADN se puede estudiar determinando las frecuencias de mononucleótidos, dinucleótidos, etc… Para ello se usa una ventana movil que se va desplazando posición a posición a lo largo de la secuencia (compseq). Por ejemplo, para determinar la frecuencia de dinucleótidos se usa una ventana de tamaño 2 y salto de 1:

ATTCCGTGAACTG…

AT, TT, TC, CG, GT…

¿Qué observamos en la secuencia del HIV al calcular la proporción de mononucleótidos y dinucleótidos? ¿Qué significa la frecuencia esperada? ¿Cómo debe calcularse esta frecuencia esperada?

Uso de codones

Es importante subrayar que los codones no se cuentan como los trinucleótidos. Estos últimos se cuentan mediante compseq con una ventana solapante. Los codones son también trinucléotidos, pero NO solapantes. Otra cuestión a tener en cuenta es que los codones hay que contarlos en la fase correcta. El recuento de codones hay que hacerlo pues con el programa cusp. El uso de codones (o dialecto genético) es especie-específico en organismos unicelulares y región-específico en multicelulares.

Tabla del código genético standard
cusp – EMBOSS
Codon Usage Database
Ejercicio: Usando cusp, determine y compare las tablas de uso de codones de dos genes (CDSs) del HIV.

Ejercicios (Analisis composicional & Uso de codones)

Determinar el G+C y longitud de la siguiente secuencia humana
Comparar la fluctuación del contenido en G+C a lo largo de esta secuencia humana con la de esta bacteria Thermus thermophilus
Determinar las frecuencias de dinucleótidos de esta secuencia humana y de la bacteria Thermus thermophilus
Analizar el uso de codones de la bacteria Thermus thermophilus
1. Obtener todas las secuencias de las CDS
2. Obtener el uso de codones mediante el programa CUSP
Analizar el uso de codones en Mycoplasma capricolum
Usar la base de datos del NCBI: http://www.ncbi.nlm.nih.gov/genome/browse/
1. Seleccionar una bacteria
2. Determinar el uso de codones y el G+C del genoma

¿Cuáles son los codones más utilizados en cada una de las bacterias estudiadas? ¿Qué aminoácidos codifican esos codones? Compara el resultado con la base de datos del uso de codones.

Patrones en el ADN

Existen varias utilidades de EMBOSS para el descubrimiento de patrones (o motivos), tanto en el ADN como en las proteínas. Una manera visualizar estos patrones es mediante el llamado ‘juego del caos’. El programa de EMBOSS que permite obtener una representación caótica de una secuencia de ADN es chaos. Puede usar la secuencia de la región de la beta-globina humana para obtener su representación caótica, y compararla con la imagen que se obtiene tras aleatorizar la secuencia mediante suffleseq.

¿Qué diferencias se observan entre la secuencia real y la aleatorizada? ¿Qué representan los huecos de puntos en la figura obtenida para la secuencia real?