Ejercicio 1 – Biocomputación

Contenido en G+C & Python

Hipótesis: El contenido de la región del inicio de la transcripción es más rico en G+C que otras regiones como por ejemplo la parte 3’ del transcrito

¿Como podemos comprobar esta hipótesis?

1. descargar mediante el Table Browser las secuencias de

los 200 nt aguas arriba del inicio de transcripción

los 200 nt aguas abajo del finalización de la transcriptción

Solamente queremos descargar los transcritos con validación experimental: Filter –> name match NM*

2. escribir un script en python que lee un fichero multifasta calculando el G+C para cada secuencia

3. presentar la distribución mediante un histograma

import matplotlib.pyplot as plt

x = [value1, value2, value3,....]
plt.hist(x, bins = number of bins)
plt.show()

4. comparar las dos listas y calcular si las medias son significativamente diferentes