Trabajos – Biocomputación

Trabajos no presenciales (20 puntos en total)

Problema 1 (2025) – 5 puntos

En el servidor de docencia, en la carpeta /opt/trabajos tenemos 3 ficheros:

gencode_v48.tsv: La notación de genes GenCode (versión 48). La primera columna contiene el nombre del transcrito y la segunda el cromosoma
mapping_table.tsv: Una tabla que contiene sinónimos para los nombres de los transcritos. La primera columna contiene el nombre del transcrito (GenCode) y la segunda el nombre correspondiente en la base de datos RefSeq
chromosome_length.tsv: un fichero que contiene información acerca de los cromosomas de hg38. La segunda columna contiene el nombre del cromosoma, la tercera el inicio y la cuarta el final.

Tarea principal (evaluada):

Escribir un programa que contabiliza el número de transcritos por cromosoma y calcula su densidad en transcritos por Mbp (el número de transcritos * 1000000/(longitud del cromosoma)).

El programa debe de generar la siguente salida

cromosoma\tconteo\tdensidad
chr1\tint\tfloat
...

Fecha límite de entrega: 15 de enero (2026)

El alumno ha de enviar un correo indicando el comando para ejecutar el programa dentro del servidor de docencia. Por ejemplo:

python3 /home/michael/tarea1/tarea1.py

Tareas adicionales (no evaluadas, para practicar):

Cambiar el primer programa para que escriba la tabla de resultado en un fichero si el usuario especifica un parámetro en línea de comando.
Generar un nuevo fichero con la anotación de genes, cambiando los nombres de GenCode por los de RefSeq. El resto de las columnas debe de mantenerse.
Calcular la densidad de transcritos eliminando transcritos que tienen igual inicio y final de transcripción (es decir, contando solamente uno)
(Más difícil) Calcular la densidad de genes. Definimos que dos transcritos pertenecen al mismo gen si comparten al menos un exon.
Calcular la densidad para genes no-codificantes (las que empiezan con NR o XR)

Problema 2 – Genotipado (2025) – 5 puntos

Problema 3 (10 puntos): análisis de datos de secuenciación masiva de ARN pequeños:

Este ejercicio se hará en grupos de hasta 4 estudiantes. El grupo ha de:

Elegir el experimento (miRNA-seq) de un repositorio publico
Analizar las muestras individualmente (2 por estudiante)
Llevar a cabo un análisis de expresión diferencial
Escribir y entregar un resumen de hasta 2 paginas con los resultados

— Trabajos de otros años —

Problema 1 (2024) 5 puntos:

Fecha limite: 8 de noviembre (2024)

Terminar el programa de la práctica 1 para que:

Acepte 3 parámetros posicionales:
- el fichero de entrada
- la longitud de la palabra (N-mero)
- un fichero de salida
Genere un fichero de salida igual que el programa compseq (ordenado alfanuméricamente)
Imprima texto de ayuda cuando el programa se lanza sin parámetros

Indicar en un correo a el comando para lanzar el programa (sin parámetros) en el servidor de docencia.

Problema 1 (2023 )(5 puntos): descargar una secuencia, copiarla al servidor y analizar su composición

Fecha limite: 17 de noviembre (2023)

Cada alumno ha de:

Generar dentro del directorio ‘/home/biocomp/ejercicio1’ una carpeta cuya nombre esté compuesto por el nombre y primer apellido del estudiante (separado ambos por un guión bajo ‘_’)
Elegir una región de aproximadamente 200 kb del genoma de un pez.
Descargar la secuencia y depositarla dentro de la carpeta generada en el primer punto
Determinar las frecuencias de los dinucleótidos usando tanto el programa desarrollado en python como el programa compseq de EMBOS. Discutir brevemente el resultado – depositar un fichero (PDF, txt, word) con la discusión (máximo media página) en la carpeta. Depositar el programa en python en la carpeta.

Problema 0 (5 puntos): descargar una secuencia, copiarla al servidor y analizar su composición

Cada alumno ha de:

Elegir un gen codificante y descargar la secuencia del NCBI
Generar dentro del directorio ‘/home/biocomp/ejercicio1’ una carpeta cuya nombre esté compuesto por el nombre y primer apellido del estudiante (separado ambos por un guión bajo ‘_’)
Subir el fichero con la secuencia al servidor de docencia y depositarlo en la carpeta generada
Determinar el uso de codones y depositar un fichero con las frecuencias de los codones en la misma carpeta

Problema 2 (5 puntos): genotipado

Problema 3 (10 puntos): análisis de datos de secuenciación masiva de ARN pequeños:

Este ejercicio se hará en grupos de hasta 4 estudiantes. El grupo ha de:

Elegir el experimento (miRNA-seq) de un repositorio publico
Analizar las muestras individualmente (2 por estudiante)
Llevar a cabo un análisis de expresión diferencial
Escribir y entregar un resumen de hasta 2 paginas con los resultados