Ejercicio 1

Contenido en G+C & Python

Hipótesis: El contenido de la región del inicio de la transcripción es más rico en G+C que otras regiones como por ejemplo la parte 3’ del transcrito

¿Como podemos comprobar esta hipótesis?

1. descargar mediante el Table Browser las secuencias de

  • los 200 nt aguas arriba del inicio de transcripción

  • los 200 nt aguas abajo del finalización de la transcriptción

Solamente queremos descargar los transcritos con validación experimental: Filter –> name match NM*

2. escribir un script en python que lee un fichero multifasta calculando el G+C para cada secuencia

3. presentar la distribución mediante un histograma 

import matplotlib.pyplot as plt

x = [value1, value2, value3,....]
plt.hist(x, bins = number of bins)
plt.show()

4. comparar las dos listas y calcular si las medias son significativamente diferentes