examen2022

Generalidades:

Duración: 2 horas

Medios: Todo MENOS el contacto con terceros mediante móvil, programas de chateo u otras formas de comunicación

Importante: no navegar ni copiar nada dentro de la carpeta de otro estudiante

Las respuestas se darán en un fichero de texto (por ejemplo Word) que se mandará a al finalizar la prueba poniendo ‘prueba biocomputación’ en el asunto

En el servidor de docencia (epigenoma.ugr.es – puerto 2220) se ha generado un carpeta /home/biocomp/examen        

1) (1 punto) Crear una carpeta dentro de la carpeta ‘/home/biocomp/examen’ que tenga como nombre el primer apellido y nombre del estudiante. Incluir dentro un fichero de texto llamado ‘Asistencia.txt’ que contenga la frase ‘He asistido al examen de Biocomputación’ y el nombre completo del estudiante.  

2) (18 puntos) Las Alus son los retrotransposon mas frecuente en el genoma humano.  Tenemos el siguiente fichero con las coordenadas de los miembros de la familia AluJ. En este fichero, las columnas 2 y 3 indican las coordenadas de inicio y final mientras que la ultima indica la clase a la que pertenece (AluJb, AluJo, etc).

Escribir un script en python que calcula la longitud total, longitud media y el número en función de la clase. La salida ha de efectuarse en pantalla de la siguiente forma: (los números son solo en modo de ejemplo y no corresponden al resultado esperable)

Clase   Longitud_total   Longitud_media  número

AluJo       100000           250                    10

AluJb ………..

AluJr …….

…….

  • Copiar la salida del script al documento del examen
  • Indicar la linea de comando (recordar: el script tiene que ser ejecutable por el profesor) 

3) (11 puntos) En la dirección /home/biocomp/examen del servidor de docencia encontramos este fichero: X_cell-lines_10000.fa que contiene las lecturas colapsadas de un experimento de miRNA-seq en este formato :’ID-count’. En el encabezado del formato fasta por tanto tenemos primero una ID separado por un guion del numero de veces que se ha observado esta secuencia en el experimento. 

  • (1 punto) copiar el fichero a la carpeta del estudiante
  • (10 puntos) escribir un script en python que produce la siguiente salida:
    • número de lecturas únicas
    • numero total de lecturas
    • contenido en G+C ponderado (no la media del G+C de las lecturas colapsadas si no el G+C de una hipotética secuencia agregada)
  • Indicar la linea de comando (recordar: el script tiene que ser ejecutable por el profesor) 

4) (6 puntos) Tenemos las siguientes secuencias anónimas: sec1 y sec2 

a) (1 punto) descargar y depositar las secuencias dentro de una carpeta llamada ‘pregunta4’ (dentro de la carpeta del examen del alumno)

b) (5 puntos) ¿Cuál de las dos secuencias proviene mas probablemente de un mamífero? (razonar brevemente)

 

5) (9 puntos) Una mujer y un hombre sin antecedentes familiares de enfermedades mendelianas planean tener hijos y se someten a un screening general. 

  • (5 puntos) Genotipar a esta mujer: 29-B_read1.fq y a este hombre: 29-G_read1.fq y reportar los resultados (cromosoma, genotipos, genes y enfermedades implicadas).
  • (4 puntos) ¿Cuál es la probabilidad de que los hijos tengan alguna enfermedad mendeliana o sean portadores de ella?

6) (15 puntos) tenemos la siguiente secuencia de un mRNA y la secuencia que corresponde solamente a la CDS. 

  • (6 puntos) Reportar la especie y los nombres del transcrito (RefSeq) y gen
  • (2 puntos) Averiguar las coordenadas cromosómicas del transcrito
  • (2 puntos) Determinar la estructura génica, es decir el número de exones y intrones 
  • (5 puntos) Determinar si la estructura génica se encuentra conservada en las siguientes especies: chimpancé común (panTro6), babuino (papAnu4), lémur ratón (micMur2),  ratón (mm10) y pez zebra (danRer11).