Predicción de islas

  1. En primer lugar detectaremos las islas CpG en la región chr6:107794482..108007281 del ensamblado hg19 (humanos).
  2. Mediante el Genome Browser podemos visualizar la región y descargar la secuencia de DNA correspondiente (‘view’ -> ‘DNA’).
  3. Mediante el programa CpGplot (EMBOSS), podemos detectar tanto las islas como visualizar el G+C y la proporción observados/esperados (frecuencia de CpG observada / frecuencia de CpG esperada) a lo largo de la secuencia.

    • ¿Cómo cambia la predicción si aumentamos el tamaño de la ventana?
    • Si cambiamos los umbrales de G+C y O/E, ¿qué efecto tiene en el tamaño de las islas predichas?
  4. CpGplot, nos facilita las coordenadas relativas de las islas CpG pero no calcula las propiedades de la secuencia (G+C, O/E). Para ello, extraeremos las secuencias correspondientes a las islas CpG mediante el programa extractseq y calcularemos la composición mediante el programa compseq.
  5. Repetiremos la predicción con el programa newcpgreport para comprobar los valores composicionales de las islas.
  6. El programa CpGcluster se basa en otro método (clusterización de dinucleótidos CpG) para predecir islas. Podemos usar tanto el repositorio para determinar las islas CpG como la secuencia para predecirlas.

    • ¿Qué diferencias observamos en la predicción de islas entre los métodos de ventanas y el de clusterización?
  7. Cada alumno deberá tratar de predecir islas CpG en la secuencia anónima que tiene asignada.