Skip to content
- En primer lugar detectaremos las islas CpG en la región chr6:107794482..108007281 del ensamblado hg19 (humanos).
- Mediante el Genome Browser podemos visualizar la región y descargar la secuencia de DNA correspondiente (‘view’ -> ‘DNA’).
- Mediante el programa CpGplot (EMBOSS), podemos detectar tanto las islas como visualizar el G+C y la proporción observados/esperados (frecuencia de CpG observada / frecuencia de CpG esperada) a lo largo de la secuencia.
- ¿Cómo cambia la predicción si aumentamos el tamaño de la ventana?
- Si cambiamos los umbrales de G+C y O/E, ¿qué efecto tiene en el tamaño de las islas predichas?
- CpGplot, nos facilita las coordenadas relativas de las islas CpG pero no calcula las propiedades de la secuencia (G+C, O/E). Para ello, extraeremos las secuencias correspondientes a las islas CpG mediante el programa extractseq y calcularemos la composición mediante el programa compseq.
- Repetiremos la predicción con el programa newcpgreport para comprobar los valores composicionales de las islas.
- El programa CpGcluster se basa en otro método (clusterización de dinucleótidos CpG) para predecir islas. Podemos usar tanto el repositorio para determinar las islas CpG como la secuencia para predecirlas.
- ¿Qué diferencias observamos en la predicción de islas entre los métodos de ventanas y el de clusterización?
- Cada alumno deberá tratar de predecir islas CpG en la secuencia anónima que tiene asignada.