Contenido en G+C & Python
Hipótesis: El contenido de la región del inicio de la transcripción es más rico en G+C que otras regiones como por ejemplo la parte 3’ del transcrito
¿Como podemos comprobar esta hipótesis?
1. descargar mediante el Table Browser las secuencias de
- los 200 nt aguas arriba del inicio de transcripción
- los 200 nt aguas abajo del finalización de la transcriptción
Solamente queremos descargar los transcritos con validación experimental: Filter –> name match NM*
2. escribir un script en python que lee un fichero multifasta calculando el G+C para cada secuencia
3. presentar la distribución mediante un histograma
import matplotlib.pyplot as plt x = [value1, value2, value3,....] plt.hist(x, bins = number of bins) plt.show()
4. comparar las dos listas y calcular si las medias son significativamente diferentes