Home » examen25

examen25

Duración: 2 horas

Medios: Todos, MENOS el contacto con terceros mediante móvil, programas de chateo u otras formas de comunicación.

Las respuestas se darán en un fichero de texto (por ejemplo Word o PDF) que se mandará a *protected email*  al finalizar la prueba poniendo ‘prueba bioinformática’ en el asunto. Nombrar el fichero de texto usando nombre/apellidos.

Razonar todas las respuestas. Indicar donde aplica los comandos o programas usados. Usar capturas de pantalla.

En el servidor de docencia (donau.ugr.es – puerto 2212) se ha generado una carpeta /home/biocomp/bioinfo25

1) (1 punto) Crear una carpeta dentro de la carpeta ‘/home/biocomp/bioinfo25’ que tenga como nombre el primer apellido y nombre del estudiante. Incluir dentro un fichero de texto llamado ‘Asistencia.txt’ que contenga la frase ‘He asistido al examen de Bioinformática’ y el nombre completo del estudiante.

2) (6 puntos) Tenemos las siguientes coordenadas chr11:5385913-5439249 que se refieren al ensamblado hg19 de Homo sapiens

  • (3 puntos) Descargar la secuencia correspondiente y depositarla dentro del la carpeta del estudiante bajo el nombre ‘secuencia.fa’
  • (3 puntos) Determinar la longitud y el G+C de la secuencia

3) (9 puntos) tenemos la siguiente secuencia anónima

  • (2 puntos) Determinar la coordenadas de la secuencia en el ensamblado hg38 del genoma humano
  • (2 puntos) ¿A que elemento genómico corresponde esta secuencia?
  • (2 puntos)¿Cuantas regiones ininterumpidas existen en el genoma humano que comparten una similitud de secuencia >= 95% con la secuencia anónima?
  • (3 puntos) Determinar si la secuencia anónima presenta marcos abiertos de lectura (ORF) que podrían corresponder a regiones codificantes

4) (12 puntos) Tenemos la siguiente accession NM_001310462.2 de un transcrito codificante

  • (2 puntos) Determinar la especie y el nombre del gen
  • (2 puntos) Determinar el número de exones y la longitud de la región codificante
  • El gen tiene asociado un transcrito no-codificante NR_132318.2
    • (2 puntos) Descargar las secuencias de NR_132318.2 y NM_001310462.2 y depositarlas en la carpeta del estudiante
    • (3 puntos) Comparar las secuencias NR_132318.2 y NM_001310462.2 y cuantificar las diferencias
    • (3 puntos) ¿Por que NR_132318.2 está anotado como un transcrito no-codificante?

5) (6 puntos) Según los criterios publicados por Takai y Jones en 2002, una isla CpG es una secuencia que tiene que cumplir 3 criterios:

  • contenido en G+C >= 55%
  • ratio entre frecuencia observada de CpGs y frecuencia esperada >= 0.65
  • longitud >= 500 nt

¿La siguiente secuencia cumple estos criterios?: secuencia_problema_2

6) (10) Tenemos un fichero multi-fasta en la ubicación /home/biocomp/bioinfo25/hofstenia.PRE.fasta

¡Indicar comandos (ordenes) de Linux necesarios para obtener los resultados!

  • (2 puntos) Determinar el número de secuencias
  • (2 puntos) Determinar el número de secuencias predichas con alta fidelidad (indicado por ‘HIGHconf’ en el nombre de la secuencia)
  • (3) Generar un fichero con las letras ‘T’ sustituidas por ‘U’ empleando una herramienta disponible en linea de comando (Linux). Indicar el comando y el nombre del fichero nuevo. 
  • (3) Determinar el número de microRNAs diferentes en el fichero (la ID de las secuencias empiezan con el nombre del microRNA Mir-1992.PRE)

7) (6 puntos) El fichero ‘/home/biocomp/beta-gal.fa’ contiene la secuencia del gen beta-galactosidasa. La base de datos ‘all‘ se ubica en la siguiente localizacion ‘/opt/datos’ contiene diferentes ensamblados de Staphylococcus aureus. 

¿En cuantos ensamblados podemos encontrar el gen con el 100% de su longitud alineado y con una similitud de secuencia >= 98%?