Práctica 3 – 2025 – Biocomputación

Objetivo

En esta práctica vamos a analizar datos de secuenciación masiva de RNAs pequeños (miRNA-seq).

Usaremos este experimento: SRP544098 del repositorio público SRA. De este experimento se asigna al menos una muestra a cada estudiante.

ID	SRX
1	SRR31290390
2	SRR33614430
3	SRR31290385
6	SRR33614429
8	SRR31290381
11	SRR33614414
12	SRR33614415

A. Referencias de miRNAs

Para el análisis de miRNA-seq necesitamos una base de datos curada con las secuencias y anotaciones de miRNAs.
La referencia estándar es miRBase, que contiene para cada microRNA:

su secuencia madura (miRNA-5p y miRNA-3p),
su precursor (“hairpin”),
su localización genómica,
la especie a la que pertenece,
información funcional y bibliográfica.

B. Repositorios públicos

Los repositorios como SRA (Sequence Read Archive) y GEO (Gene Expression Omnibus) contienen miles de datasets generados por laboratorios de todo el mundo. Su utilidad es enorme: permiten validar hipótesis, reutilizar datos, y aprender metodologías reproducibles sin necesidad de realizar experimentos de laboratorio.

1. Descarga de datos desde SRA

Para descargar los archivos FASTQ desde el SRA utilizaremos el toolkit oficial:

2. Eliminar el adaptador

Existen muchos protocolos para la preparación de la librería cDNA, y en cada uno se usa un adaptador diferente. Parte de los adaptadores se secuencian (si la molécula es más corta que el número de ciclos) y por ello tenemos que detectar primero estas secuencias y eliminarlas de las lecturas.

Entre los mas usados se encuentran:

TGGAATTCTCGGGTGCCAAGG
TCGTATGCCGTCTTCTGCTTG
AGATCGGAAG

sRNAbench input=/home/cris/tema7/SRR31290390.fastq.gz output=/home/cris/tema7/mirna/SRR31290390 adapter=AGATCGGAAGAGCACACGT remove3pBases=5 removeBarcode=5

¿En qué nos fijamos?

En la carpeta de salida tenemos el fichero results.txt, donde podemos ver el porcentaje de lecturas para las que se detectó el adaptdor
El fichero reads_orig.fa: Contiene los reads a los que se les ha quitado el adaptador

3. Cuantificación de miRNAs con sRNAbench

sRNAbench es una herramienta específica para miRNA-seq que:

detecta adaptadores,
colapsa lecturas idénticas,
mapea contra precursores y secuencias maduras,
cuantifica expresión,
analiza isomiRs y diversas variantes.

Ejemplo:

microRNA=hsa indica que se usen los microRNAs de humanos; mmu seria para el ratón o rno para la rata, bta para la vaca (Bos Taurus) etc.

¿En qué nos fijamos?

Porcentaje de lecturas mapeadas a miRNAs. Cuanto mayor es, mejor.
Proporción de lecturas que alinean frente a otros RNAs (tRNA, rRNA, snoRNA,…), muy útil para detectar contaminación.
Distribución de isomiRs -> Modificaciones de los miRNAs.

Archivos importantes:

El fichero mature_sense.grouped
la carpeta hairpin

4. Calcular la expresión diferencial

SRR31290390:SRR31290385:SRR31290381

SRR33614430:SRR33614429:SRR33614414:SRR33614415

sRNAde input=/home/cris/tema7/mirna output=/home/cris/tema7/results/matrix grpString=SRR31290390:SRR31290385:SRR31290381#SRR33614430:SRR33614429:SRR33614414:SRR33614415 grpDesc=disease#healthy diffExpr=true

fichero para generar el string de grupos

¿En que nos fijamos?

La matrix de expresión: mature_sense_minExpr1_RCadj_libraryRPM.mat

5. Normalizar el conteo

Antes de comparar perfiles de expresión entre muestras, es imprescindible normalizar los datos. La normalización corrige diferencias en profundidad de secuenciación y en composición global entre bibliotecas.

Métodos comunes de normalización incluyen:

RPM (Reads Per Million): ajusta por el número total de lecturas mapeadas.
TMM (Trimmed Mean of M-values): corrige diferencias de composición entre muestras.
DESeq2 size factors: ajusta la distribución global de los conteos.

En sRNAde ya se generan matrices normalizadas, pero es importante entender el razonamiento:

Objetivo de la normalización
Garantizar que una diferencia observada en expresión refleja cambios biológicos y no variaciones técnicas.

6. Análisis exploratorio: heatmap

El análisis exploratorio permite evaluar la calidad de las muestras antes de proceder con análisis más avanzados.

Un heatmap de las expresiones normalizadas permite visualizar:

similitud global entre perfiles de expresión,
agrupamientos (clústeres) esperados entre condiciones,
posibles outliers, como muestras contaminadas o procesadas incorrectamente.

También se suelen visualizar:

diagramas PCA/UMAP para ver agrupamientos globales,
correlaciones entre muestras (Pearson o Spearman).

¿Qué debemos evaluar en el heatmap?

Que las muestras del mismo grupo formen clústeres.
Que no existan muestras aisladas con patrones completamente distintos.

7. Determinar la expresión diferencial

Para determinar la expresión diferencial tenemos que:

normalizar el conteo para poder comparar diferentes muestras
calcular la magnitud de cambio (fold-change) para cada microRNA como: log2 (media de expresión (casos) / media de expresión (controles)
calcular la significación estadística para el FC mediante un test de student
corregir el valor p (multiple testing, comparaciones múltiples)
extraer los microRNAs que se sobre-expresan y los que se infra-expresan

Una vez validada la calidad, podemos identificar qué microRNAs cambian su expresión entre condiciones.

Para determinar la expresión diferencial tenemos que:

1. Normalizar los conteos (RPM / TMM / DESeq2 size factors)
2. Calcular el cambio de expresión:
  
  Para cada miRNA: log2 (media de expresión (casos) / media de expresión (controles)
3. Evaluar la significación estadística:
  1. Test de Student (en sRNAde)
  2. Alternativas comunes: Wald test (DESeq2), LRT, Wilcoxon.
4. Corregir el valor p (multiple testing, comparaciones multiples):
  - https://en.wikipedia.org/wiki/False_discovery_rate#Benjamini.E2.80.93Hochberg_procedure
  - https://en.wikipedia.org/wiki/Bonferroni_correction
5. Seleccionar los miRNA diferencialmente expresados:
  - Sobre-expresados: log2FC > 0 y FDR significativo
  - Infra-expresados: log2FC < 0 y FDR significativo

Archivos clave

mature_sense_minExpr1_RCadj_libraryRPM.mat → matriz normalizada para análisis.

8. Explorar los microRNAs mediante TarBase

9. Analizar los microRNAs mediante miRPath

miRPath permite detectar las rutas KEGG que contienen mas genes regulados por ciertos microRNAs que se esperaría por azar

Rutas en el cáncer –> pathway entry: 532 genes

Homo sapiens en KEGG: 20364 genes codificantes (19178 genes no codificantes)

Pregunta: ¿Cuál es la probabilidad de obtener 20 genes codificantes que actúan en ‘Rutas del cáncer’ en una lista aleatoria de genes con tamaño 200?