Análisis básico

Análisis composicional

La composición de la secuencia permite en muchos casos obtener una primera idea acerca de la especie de que proviene, sobre los elementos funcionales que podría contener y sobre los procesos evolutivos. Para ello, de especial interés serán las frecuencias de mono y di-nucleótidos y el contenido en G+C a lo largo de la secuencia.

Para el análisis composicional, disponemos de una serie de programas de EMBOSS.

Determinar la longitud y el contenido global en G+C (%GC) de una secuencia mediante el programa infoseq.

para lanzar infoseq en linea de comando:

 infoseq -help

Secuencia de ejemplo: sec29

Analizar la variación espacial del %GC a lo largo de una secuencia (freak).

freak -help

Secuencia de ejemplo: secuencia_MHC

Ejercicio:

Comparar la fluctuación del %G+C de la secuencia_MHC con la de NC_006461.1

Preguntas: 

  • ¿Que observamos en la distribución del G+C en la secuencia MHC y que explicación puede tener?
  • ¿Que diferencias observamos si comparamos la distribución espacial del G+C entre las dos secuencias?

La composición de una secuencia de ADN se puede estudiar determinando las frecuencias de mononucleótidos, dinucleótidos, etc

Para ello se usa una ventana movil que se va desplazando posición a posición a lo largo de la secuencia (compseq). Por ejemplo, para determinar la frecuencia de dinucleótidos se usa una ventana de tamaño 2 y salto de 1:

ATTCCGTGAACTG…

AT, TT, TC, CG, GT…

Secuencias de ejemplosec29Mycoplasma capricolum , secuencia_N

Ejercicios:

  • Comparar la composición de la  sec29 con una secuencia obtenida de C. elegans (¿Como?)
  • Determinar el uso de nucleótidos de las 3 secuencias
  • Aleatorizar (suffleseq) la sec29 y determinar el uso de dinucleótidos

Preguntas:

  • ¿Cuál es el método más indicado para estimar la frecuencia esperada de los dinucleótidos?
  • ¿Existen algunos dinucleótidos con frecuencias observadas muy distintas a las esperadas?
  • ¿A qué mecanismos bioquímicos y evolutivos se deben este fenómeno?
  • ¿Que observamos para la secuencia de un procariota?
  • ¿Que diferencias hay en el uso de dinucleótidos entre las sec29 y su secuencia randomizada? ¿Porque?

 

Uso de codones

Es importante subrayar que los codones no se cuentan cómo los trinucleótidos. Estos últimos se cuentan mediante compseq con una ventana solapante. Los codones son también trinucléotidos, pero NO solapantes. Otra cuestión a tener en cuenta es que los codones hay que contarlos en la fase correcta. El recuento de codones hay que hacerlo pues con el programa cusp. El uso de codones (o dialecto genético) es especie-específico en organismos unicelulares y región-específico en multicelulares.

Ejercicios

  • Analizar el uso de codones de la sec29
  • Analizar el uso de codones de la bacteria Thermus thermophilus
    1. Obtener todas las secuencias de las CDS
    2. Obtener el uso de codones mediante el programa CUSP