Datos
Utilizaremos dos conjuntos pequeños de datos procedentes del proyecto Illumina BodyMap 2.0. Se trata de lecturas paired-end de 50 bp de longitud y procedentes de dos tejidos: glándula suprarrenal y cerebro. Las lecturas mapean principalmente en una region de 500 Kbp del cromosoma 19 (chr19:3000000-35000000).
Conéctese a Galaxy e importe estos datos. Una vez completado este proceso, su historia debería quedar así:
El item 1 de la historia corresponde a la anotación de genes (en formato GTF) del ensamblado hg19 de la UCSC procedente del proyecto iGenomes. Los items 2-5 contienen las lecturas (paired-ends) de RNA-seq.
Control de calidad
Paso 1: Realice un control de calidad de los datos utilizando NGS: QC and manipulation -> FastQC. A menudo, es necesario recortar las lecturas eliminando aquellas posiciones con una mediana de calidad (o un cuartil inferior) bajos. Para este ejercicio, vamos a asumir que una mediana por debajo de 20 no sería utilizable. Dado este criterio ¿es necesario recortar alguno de los conjuntos de datos?
Observe también que los datos no pasan los controles de calidad ‘per-sequence GC content’ y ‘sequence duplication levels’. Ello se debe a que FastQC está diseñado para datos de DNA y no de RNA.
Paso 2: Si lo considera necesario, puede recortar las lecturas del conjunto o conjuntos de datos que no superen el control de calidad con NGS: QC and manipulation -> FASTQ Quality Trimmer
Alineamiento de las lecturas
El siguiente paso es mapear las lecturas procesadas. La mayor dificultad para mapear las lecturas de RNA-seq es que, puesto que proceden de RNA, a menudo solapan con las uniones de splicing, y éstas no están presentes en la secuencia genómica. Así pues los alineadores habituales (como Bowtie o BWA) no pueden utilizarse. Utilizaremos por lo tanto un alineador específico para RNA-seq: Tophat.
Paso 1: Utilice [NGS: RNA Analysis >] Tophat para mapear las lecturas sobre el ensamblado hg19. Puesto que las lecturas son paired-end, necesitará especificar la distancia interna media entre los pares. Para los datos de BodyMap puede usar un valor de 110 para este parámetro.
Vea la documentación de Tophat para comprender los resultados que produce este programa. Para cada muestra (tejido) Galaxy produce 4 archivos de resultados: align_summary, insertions, deletions, splice_juntions (observe que cada unión está formada por dos bloques conectados) y accepted_hits (listado de los alineamientos de las lecturas en formato SAM).
Cuestiones:
- ¿Qué porcentajes de lecturas directas y reversas alinean sobre hg19?
- ¿Qué porcentajes de lecturas mapean en un sitio único del genoma y cuales mapean en sitios múltiples?
- ¿Cuantas uniones de splicing encuentra TopHat en cada muestra?
- ¿Hay una mayoría de uniones de splicing soportadas por más de 10 lecturas? Para responder a esta pregunta necesitará los datos de la columna 5 del archivo splice_junctions.
Step 2: To view Tophat’s output, create a simple Galaxy visualization by selecting Visualization > New Track Browser from the main Galaxy menu at the top. Create the visualization using the hg19 build and add datasets to your visualization by clicking on the Add Datasets to Visualization button. Add (a) Tophat’s accepted hits BAM datasets, which are the mapped reads; (b) Tophat’s splice junctions datasets, which denote the junctions found by mapping the reads; and (c) the iGenomes gene annotation.
Navigate to chr19 using the select box at the top of visualization and look at the data. Zoom in to view the data at greater detail. You can zoom in by (a) double-clicking anywhere on the visualization to zoom in on that area or (b) dragging on the base number area at the top of the visualization to create a zoom area; or (c) clicking on the location bar and entering the region with data, chr19:3000000:3500000
You should be able to see: (a) the reads mapped by Tophat, including reads mapped across introns (there are a lot of reads!); (b) the splice junctions produced by Tophat; and (c) how Tophat’s reads and junction correspond to the annotated genes. Find a gene locus where there are mapped reads, and then find an example of a splice junction between 2 known exons, and find an example where a splice junction might be found but is not.