En esta práctica vamos a analizar datos de secuenciación masiva de RNAs pequeños (miRNA-seq).
Usaremos este experimento: SRP012546 del repositorio público SRA. De este experimento, cada alumno tiene asignada una muestra (muestras asignadas).
Generalidades:
miRBase es la base de datos de referencia para los microRNAs que contiene las secuencias, el contexto genómico, las dianas y mas información para todos los microRNAs.
Repositorios públicos
Existen docenas de conjuntos de datos disponibles en repositorios públicos que podemos reanalizar para comprobar nuevas hipótesis.
Repositorios públicos: SRA y GEO
Descargar datos del SRA y convertirlos
fastq-dump –gzip SRR491368
Eliminar el adaptador
Existen muchos protocolos para la preparación de la librería cDNA, y en cada uno se usa un adaptador diferente. Parte de los adaptadores se secuencian (si la molécula es mas corta que el número de ciclos) y por ello tenemos que detectar primero estas secuencias y eliminarlas de las lecturas.
Entre los mas usados se encuentran:
- TGGAATTCTCGGGTGCCAAGG
- TCGTATGCCGTCTTCTGCTTG
- AGATCGGAAG
sRNAbench input=/home/michael/microRNA/SRR491337.fastq.gz output=/home/michael/microRNA/SRR491337 adapter=CGCCTTGGCCG
¿En que nos fijamos?
En la carpeta de salida –> results.txt
- El porcentaje de lecturas para las que se detectó el adaptdor
- El fichero reads_orig.fa
Lanzar sRNAbench para determinar la expresión de los microRNAs
sRNAbench input=/home/michael/microRNA/SRR491337.fastq.gz output=/home/michael/microRNA/SRR491337 adapter=CGCCTTGGCCG microRNA=hsa
microRNA=hsa –> usar los microRNAs de humanos; mmu seria para el ratón o rno para la rata, bta para la vaca (Bos Taurus) etc.
¿En que nos fijamos?
- El fichero mature_sense.grouped
- la carpeta hairpin
Calcular la expresión diferencial
sRNAde input=/home/biocomp/practica3 output=/home/biocomp/practica3/matrix grpString=SRR491337:SRR491338:SRR491339:SRR491340:SRR491341:SRR491342:SRR491343:SRR491344:SRR491345#SRR491348:SRR491349:SRR491350:SRR491351:SRR491352:SRR491353:SRR491354:SRR491355 grpDesc=healthy#recurrence diffExpr=true
fichero para generar el string de grupos
¿En que nos fijamos?
- La matrix de expresión: mature_sense_minExpr1_RCadj_libraryRPM.mat
- El heatmap/clusterización: mature_sense_1_RCadj_heatmap_perc0.85.png
Determinar la expresión diferencial
Para determinar la expresión diferencial tenemos que:
- normalizar el conteo para poder comparar diferentes muestras
- calcular la magnitud de cambio (fold-change) para cada microRNA como: log2 (media de expresión (casos) / media de expresión (controles)
- calcular la significación estadística para el FC mediante un test de student
- corregir el valor p (multiple testing, comparaciones múltiples)
- extraer los microRNAs que se sobre-expresan y los que se infra-expresan
Explorar los microRNAs mediante TarBase
Analizar los microRNAs mediante miRPath
miRPath permite detectar las rutas KEGG que contienen mas genes regulados por ciertos microRNAs que se esperaría por azar
Rutas en el cáncer –> pathway entry: 532 genes
Homo sapiens en KEGG: 20364 genes codificantes (19178 genes no codificantes)
Cuestión: Que es la probabilidad de obtener 20 genes codificantes que actúan en ‘Rutas del cáncer’ en una lista aleatoria de genes con tamaño 200.
Crear un heatmap mediante el heatmapper
Esta aplicación nos permite analizar como de similar son los perfiles de expresión de las diferentes muestras. Mediante este análisis se puede detectar outliers (muestras que pueden presentar algún problema como contaminación o artefactos técnicos)
Cuestiones:
- ¿Que muestra habría que eliminar del análisis y por que?
- ¿Cuantos microRNAs se expresan diferencialmente entre individuos sanos y individuos con recaída?
- ¿Que microRNAs podrían estar causalmente implicados en la formación de un tumor? Analizar miR-21-5p, miR-204-5p y miR-125b-5p