Ejercicio 3

Analizar el efecto de la variación de secuencia

1) Obtención de las coordenadas cromosómicas de un gen mediante el navegador genómico del UCSC (buscando directamente el nombre del gen)

Eligiendo la isoforma Dp427m (NM_004006) obtenemos las coordenadas: chrX:31,119,228-33,211,556
DMD at chrX:31119228-33211556 – (NM_004006) dystrophin Dp427m isoform

2) Descargar una lista de SNPs

Con las coordenadas obtenidas arriba, nos vamos al ‘Table Browser’ (en la pestaña ‘Tools’) y elegimos del grupo ‘Variation’ la tabla (track) Common SNPs (150)
chrX:31,119,228-33,211,556

3) Cuantificar la clasificación

Después de descargar el fichero, vemos en la columna ‘func’ (la decimosexta) una clasificación para el efecto/localización del SNP Para cuantificar la clasificación podemos usar un pequeño script en Perl Después de abrir el fichero recorrerlo línea por línea:

# hacer split en el tabulador

# usar el valor en la columna 15 como clave (key) en el array asociativo 

Despúes de procesar todo el fichero, podemos escribir el contenido del hash (array asociativo) en pantalla

# recorrer todas las parejas clave/valor

Cuestiones

  1. podemos observar diferencias significativas entre la tabla de los SNPs comunes y ‘flagged’ SNPs?