Home » Análisis básico

Análisis básico

A partir de una secuencia de ADN podemos calcular una serie de propiedades composicionales que nos pueden facilitar información valida acerca de la secuencia e incluso del organismo del que proviene. El contenido en G+C de una secuencia es simplemente la fracción de guaninas y citosinas sobre el total de las 4 bases (en ausencia de bases ambiguas, este número es idéntico a la longitud de la secuencia). Su análisis a lo largo de la secuencia nos puede dar una idea donde se localizan promotores y exones, regiones que se suelen caracterizar por destacar en su contenido en G+C sobre su entorno. Otras aplicaciones son la detección de isocoras, islas CpG o eventos de transferencia horizontal entre procariotas.

El paquete de software EMBOSS dispone de diferentes programas para analizar propiedades básicas de secuencias de ADN y proteínas


Secuencias anónimas:

Necesitaremos el sistema operativo Linux:

Analisis básico mediante EMBOSS en linea de comando

infoseq

Este programa nos permite extraer anotaciones de una secuencia y determinar propiedades básicas como la longitud y el contenido en G+C

Ejecutar el programa visualizando todos los parametros

infoseq --help

Ejecutar infoseq proporcionando el fichero que queremos analizar:

infoseq -sequence anon2.txt -outfile anon2_infoseq.txt

extractseq

Extraer una subsecuencia.

  1. Utilizando extractseq, haga el splicing del gen de la rodopsina de Xenopus y extraiga la CDS completa.
  2. Use plotorf o ORFfinder para visualizar las ORFs en la CDS obtenida y confirmar que el splicing ha sido correcto.
  3. También puede utilizar cusp (véase más adelante) para contar los codones y confirmar que esta CDS tiene un solo codon de stop al final de la secuencia.

revseq

Programa que permite determinar la secuencia complementaria inversa


Análisis composicional

Fluctuación espacial de la composición: freak

Este programa nos permite determinar la variación espacial del %GC a lo largo de una secuencia

  • Determinar la fluctuación del contenido en G+C a lo largo de esta secuencia: secuencia humana
  • Determinar la fluctuación a lo largo de las secuencias anon2 y anon3.
    • ¿Qué diferencias podemos observar entre las secuencias del genoma humano y de la Bacteria?
    • ¿Que podrían representan las estructuras detectadas?
    • ¿Como se puede verificar la identidad de estas estructuras?

Ejemplo de uso:

freak -seqall anon3.txt -letters gc -outfile anon.freak -step 500 -window 1000

Con salida gráfica:

freak -seqall anon3.txt -letters gc -outfile anon.freak -step 500 -window 1000 -graph png -plot

Análisis de las frecuencias de k-meros: compseq

La composición de una secuencia de ADN se puede estudiar determinando las frecuencias de mononucleótidos, dinucleótidos, etc

Para ello se usa una ventana movil que se va desplazando posición a posición a lo largo de la secuencia (Por ejemplo, para determinar la frecuencia de dinucleótidos se usa una ventana de tamaño 2 y salto de 1:

ATTCCGTGAACTG…

AT, TT, TC, CG, GT…

Cuestiones

  • ¿Qué diferencias podemos observar entre la secuencia del genoma humano de de la Bacteria? ¿A que se pueden deber estas diferencias?
  • ¿Que observamos en C. elegans?¿Qué explicación puede tener?

Uso de codones

Es importante subrayar que los codones no se cuentan cómo los trinucleótidos. Estos últimos se cuentan mediante compseq con una ventana solapante. Los codones son también trinucléotidos, pero NO solapantes. Otra cuestión a tener en cuenta es que los codones hay que contarlos en la fase correcta. El recuento de codones hay que hacerlo pues con el programa cusp. El uso de codones (o dialecto genético) es especie-específico en organismos unicelulares y región-específico en multicelulares.

Ejercicios

Cuestiones

  • ¿A que se se pueden deber las diferencias en el contenido en G+C?
  • ¿Por que el G+C es tan diferente en las distintas posiciones del codón?

Patrones en el ADN

Existen varias utilidades de EMBOSS para el descubrimiento de patrones (o motivos), tanto en el ADN (fuzznuc) como en las proteínas (fuzzpro, antigenic).

Una manera visualizar estos patrones es mediante el llamado ‘juego del caos’. El programa de EMBOSS que permite obtener una representación caótica de una secuencia de ADN es chaos. Puede usar la secuencia de la región de la beta-globina humana para obtener su representación caótica, y compararla con la imagen que se obtiene tras aleatorizar la secuencia mediante suffleseq.


Mapas de restricción

El programa de EMBOSS restrict permite obtener un listado de las dianas que presenta una secuencia problema de ADN para distintas enzimas de restricción. Se pueden especificar una o dos enzimas de restricción, o bien todas las enzimas de REBASE. Existen opciones para controlar los sitios que se quieren obtener y para elegir el formato de salida.

Resultados