Duración: 2 horas
Medios: Todos, MENOS el contacto con terceros mediante móvil, programas de chateo u otras formas de comunicación.
Las respuestas se darán en un fichero de texto (por ejemplo Word o PDF) que se mandará a *protected email* al finalizar la prueba poniendo ‘prueba bioinformática’ en el asunto. Nombrar el fichero de texto usando nombre/apellidos.
Razonar todas las respuestas. Indicar donde aplica los comandos o programas usados. Usar capturas de pantalla.
En el servidor de docencia (donau.ugr.es – puerto 2212) se ha generado una carpeta /home/biocomp/bioinfo25
1) (1 punto) Crear una carpeta dentro de la carpeta ‘/home/biocomp/bioinfo25’ que tenga como nombre el primer apellido y nombre del estudiante. Incluir dentro un fichero de texto llamado ‘Asistencia.txt’ que contenga la frase ‘He asistido al examen de Bioinformática’ y el nombre completo del estudiante.
2) (6 puntos) Tenemos las siguientes coordenadas chr11:5385913-5439249 que se refieren al ensamblado hg19 de Homo sapiens
- (3 puntos) Descargar la secuencia correspondiente y depositarla dentro del la carpeta del estudiante bajo el nombre ‘secuencia.fa’
- (3 puntos) Determinar la longitud y el G+C de la secuencia
3) (9 puntos) tenemos la siguiente secuencia anónima
- (2 puntos) Determinar la coordenadas de la secuencia en el ensamblado hg38 del genoma humano
- (2 puntos) ¿A que elemento genómico corresponde esta secuencia?
- (2 puntos)¿Cuantas regiones ininterumpidas existen en el genoma humano que comparten una similitud de secuencia >= 95% con la secuencia anónima?
- (3 puntos) Determinar si la secuencia anónima presenta marcos abiertos de lectura (ORF) que podrían corresponder a regiones codificantes
4) (12 puntos) Tenemos la siguiente accession NM_001310462.2 de un transcrito codificante
- (2 puntos) Determinar la especie y el nombre del gen
- (2 puntos) Determinar el número de exones y la longitud de la región codificante
- El gen tiene asociado un transcrito no-codificante NR_132318.2
- (2 puntos) Descargar las secuencias de NR_132318.2 y NM_001310462.2 y depositarlas en la carpeta del estudiante
- (3 puntos) Comparar las secuencias NR_132318.2 y NM_001310462.2 y cuantificar las diferencias
- (3 puntos) ¿Por que NR_132318.2 está anotado como un transcrito no-codificante?
5) (6 puntos) Según los criterios publicados por Takai y Jones en 2002, una isla CpG es una secuencia que tiene que cumplir 3 criterios:
- contenido en G+C >= 55%
- ratio entre frecuencia observada de CpGs y frecuencia esperada >= 0.65
- longitud >= 500 nt
¿La siguiente secuencia cumple estos criterios?: secuencia_problema_2
6) (10) Tenemos un fichero multi-fasta en la ubicación /home/biocomp/bioinfo25/hofstenia.PRE.fasta
¡Indicar comandos (ordenes) de Linux necesarios para obtener los resultados!
- (2 puntos) Determinar el número de secuencias
- (2 puntos) Determinar el número de secuencias predichas con alta fidelidad (indicado por ‘HIGHconf’ en el nombre de la secuencia)
- (3) Generar un fichero con las letras ‘T’ sustituidas por ‘U’ empleando una herramienta disponible en linea de comando (Linux). Indicar el comando y el nombre del fichero nuevo.
- (3) Determinar el número de microRNAs diferentes en el fichero (la ID de las secuencias empiezan con el nombre del microRNA Mir-1992.PRE)
7) (6 puntos) El fichero ‘/home/biocomp/beta-gal.fa’ contiene la secuencia del gen beta-galactosidasa. La base de datos ‘all‘ se ubica en la siguiente localizacion ‘/opt/datos’ contiene diferentes ensamblados de Staphylococcus aureus.
¿En cuantos ensamblados podemos encontrar el gen con el 100% de su longitud alineado y con una similitud de secuencia >= 98%?