Práctica 3

En esta práctica vamos a analizar datos de secuenciación masiva de RNAs pequeños (miRNA-seq).

Usaremos este experimento: SRP012546 del repositorio público SRA. De este experimento, cada alumno tiene asignada una muestra (muestras asignadas).

Generalidades:

La referencia: miRBase

miRBase es la base de datos de referencia para los microRNAs que contiene las secuencias, el contexto genómico, las dianas y mas información para todos los microRNAs.

Repositorios públicos

Existen docenas de conjuntos de datos disponibles en repositorios públicos que podemos reanalizar para comprobar nuevas hipótesis.

Repositorios públicos: SRA y GEO

 

Descargar datos del SRA y convertirlos

fastq-dump –gzip SRR491368

Eliminar el adaptador

Existen muchos protocolos para la preparación de la librería cDNA, y en cada uno se usa un adaptador diferente. Parte de los adaptadores se secuencian (si la molécula es mas corta que el número de ciclos) y por ello tenemos que detectar primero estas secuencias y eliminarlas de las lecturas.

Entre los mas usados se encuentran:

  • TGGAATTCTCGGGTGCCAAGG
  • TCGTATGCCGTCTTCTGCTTG
  • AGATCGGAAG
sRNAbench input=/home/michael/microRNA/SRR491337.fastq.gz output=/home/michael/microRNA/SRR491337 adapter=CGCCTTGGCCG

 

¿En que nos fijamos?

En la carpeta de salida –> results.txt

  • El porcentaje de lecturas para las que se detectó el adaptdor
  • El fichero reads_orig.fa

 

Lanzar sRNAbench para determinar la expresión de los microRNAs

 

sRNAbench input=/home/michael/microRNA/SRR491337.fastq.gz output=/home/michael/microRNA/SRR491337 adapter=CGCCTTGGCCG microRNA=hsa

microRNA=hsa –> usar los microRNAs de humanos; mmu seria para el ratón o rno para la rata, bta para la vaca (Bos Taurus) etc.

 

¿En que nos fijamos?

  • El fichero mature_sense.grouped
  • la carpeta hairpin

 

Calcular la expresión diferencial

sRNAde input=/home/biocomp/practica3 output=/home/biocomp/practica3/matrix grpString=SRR491337:SRR491338:SRR491339:SRR491340:SRR491341:SRR491342:SRR491343:SRR491344:SRR491345#SRR491348:SRR491349:SRR491350:SRR491351:SRR491352:SRR491353:SRR491354:SRR491355 grpDesc=healthy#recurrence diffExpr=true

fichero para generar el string de grupos

¿En que nos fijamos?

  • La matrix de expresión: mature_sense_minExpr1_RCadj_libraryRPM.mat
  • El heatmap/clusterización: mature_sense_1_RCadj_heatmap_perc0.85.png

 

Determinar la expresión diferencial

Para determinar la expresión diferencial tenemos que:

Explorar los microRNAs mediante TarBase

Analizar los microRNAs mediante miRPath

miRPath permite detectar las rutas KEGG que contienen mas genes regulados por ciertos microRNAs que se esperaría por azar

Rutas en el cáncer  –> pathway entry:  532 genes

Homo sapiens en KEGG:     20364 genes codificantes (19178 genes no codificantes)

Cuestión: Que es la probabilidad de obtener 20 genes codificantes que actúan en ‘Rutas del cáncer’ en una lista aleatoria de genes con tamaño 200.

Crear un heatmap mediante el heatmapper

Esta aplicación nos permite analizar como de similar son los perfiles de expresión de las diferentes muestras. Mediante este análisis se puede detectar outliers (muestras que pueden presentar algún problema como contaminación o artefactos técnicos)

Cuestiones:

  • ¿Que muestra habría que eliminar del análisis y por que?
  • ¿Cuantos microRNAs se expresan diferencialmente entre individuos sanos y individuos con recaída?
  • ¿Que microRNAs podrían estar causalmente implicados en la formación de un tumor? Analizar miR-21-5p, miR-204-5p y miR-125b-5p