{"id":2143,"date":"2017-01-14T21:53:57","date_gmt":"2017-01-14T19:53:57","guid":{"rendered":"http:\/\/bioinfo2.ugr.es\/genomicafuncional\/?page_id=2143"},"modified":"2017-01-14T22:33:05","modified_gmt":"2017-01-14T20:33:05","slug":"rna-seq","status":"publish","type":"page","link":"https:\/\/bioinfo2.ugr.es\/genomicafuncional\/rna-seq\/","title":{"rendered":"Transcript\u00f3mica: RNA-Seq"},"content":{"rendered":"<p><a href=\"https:\/\/speakerdeck.com\/nekrut\/structure-workshop\" target=\"_blank\">Presentaci\u00f3n<\/a><\/p>\n<h2>Datos<\/h2>\n<p>Utilizaremos dos conjuntos peque\u00f1os de datos procedentes del proyecto\u00a0<a title=\"\" href=\"http:\/\/www.ensembl.info\/blog\/2011\/05\/24\/human-bodymap-2-0-data-from-illumina\/\" target=\"_blank\" data-original-title=\"BodyMap 2.0\">Illumina BodyMap 2.0<\/a>. Se trata de lecturas paired-end de 50 bp de longitud y procedentes de dos tejidos: gl\u00e1ndula suprarrenal y cerebro. Las lecturas mapean principalmente en una region de 500 Kbp del cromosoma 19\u00a0(chr19:3000000-35000000).<\/p>\n<p>Con\u00e9ctese a <span style=\"font-size: 18pt;\"><a href=\"https:\/\/usegalaxy.org\/\" target=\"_blank\">Galaxy <\/a><\/span>e importe estos <span style=\"font-size: 18pt;\"><a href=\"https:\/\/usegalaxy.org\/u\/jeremy\/p\/galaxy-rna-seq-analysis-exercise\" target=\"_blank\">datos<\/a><\/span>. Una vez completado este proceso, su historia deber\u00eda quedar as\u00ed:<\/p>\n<p><a href=\"http:\/\/bioinfo2.ugr.es\/genomica\/wp-content\/uploads\/2015\/10\/Galaxy-2015-10-13-14-23-25.png\"><img loading=\"lazy\" class=\"alignnone size-full wp-image-2985\" src=\"http:\/\/bioinfo2.ugr.es\/genomica\/wp-content\/uploads\/2015\/10\/Galaxy-2015-10-13-14-23-25.png\" alt=\"Galaxy 2015-10-13 14-23-25\" width=\"245\" height=\"341\" \/><\/a><\/p>\n<p>El item 1 de la historia corresponde a la anotaci\u00f3n de genes (en formato GTF) del ensamblado hg19 de la UCSC procedente del proyecto <a title=\"\" href=\"https:\/\/support.illumina.com\/sequencing\/sequencing_software\/igenome.html\" target=\"_blank\" data-original-title=\"iGenomes\">iGenomes<\/a>. Los items 2-5 contienen las lecturas (paired-ends) de RNA-seq.<\/p>\n<h2>Control de calidad<\/h2>\n<p><strong>Paso 1<\/strong>: Realice un control de calidad de los datos utilizando <strong>NGS: QC and manipulation -&gt; FastQC<\/strong>. A menudo, es necesario recortar las lecturas eliminando aquellas posiciones con una mediana de calidad (o un cuartil inferior) bajos. Para este ejercicio, vamos a asumir que una mediana por debajo de 20 no ser\u00eda utilizable. Dado este criterio \u00bfes necesario recortar alguno de los conjuntos de datos?<\/p>\n<p>Observe tambi\u00e9n que los datos no pasan los controles de calidad &#8216;per-sequence GC content&#8217; y &#8216;sequence duplication levels&#8217;. Ello se debe a que FastQC est\u00e1 dise\u00f1ado para datos de DNA y no de RNA.<\/p>\n<p><strong>Paso 2<\/strong>: Si lo considera necesario, puede recortar las lecturas del conjunto o conjuntos de datos que no superen el control de calidad con <strong>NGS: QC and manipulation -&gt; FASTQ Quality Trimmer<\/strong><\/p>\n<h2>Alineamiento de las lecturas<\/h2>\n<p>El siguiente paso es mapear las lecturas procesadas. La mayor dificultad para mapear las lecturas de RNA-seq es que, puesto que proceden de RNA, a menudo solapan con las uniones de splicing, y \u00e9stas no est\u00e1n presentes en la secuencia gen\u00f3mica. As\u00ed pues los alineadores habituales (como Bowtie o BWA) no pueden utilizarse. Utilizaremos por lo tanto un alineador espec\u00edfico para RNA-seq: <a title=\"\" href=\"http:\/\/tophat.cbcb.umd.edu\/\" target=\"_blank\" data-original-title=\"Tophat\">Tophat<\/a>.<\/p>\n<p><strong>Paso 1<\/strong>: Utilice [<em>NGS: RNA Analysis &gt;<\/em>]\u00a0<strong>Tophat<\/strong> para mapear las lecturas sobre el ensamblado hg19. Puesto que las lecturas son paired-end, necesitar\u00e1 especificar la distancia interna media entre los pares. Para los datos de BodyMap puede usar un valor de 110 para este par\u00e1metro.<\/p>\n<p>Vea la <a href=\"http:\/\/ccb.jhu.edu\/software\/tophat\/manual.shtml\" target=\"_blank\">documentaci\u00f3n de Tophat<\/a> para comprender los resultados que produce este programa. Para cada muestra (tejido) Galaxy produce 4 archivos de resultados: <em>align_summary, insertions, deletions, splice_juntions<\/em> (observe que c<span style=\"font-family: arial,helvetica,sans-serif; font-size: 12pt;\">ada uni\u00f3n est\u00e1 formada por dos bloques conectados)<\/span> y <em>accepted_hits<\/em> (<span style=\"font-family: arial,helvetica,sans-serif; font-size: 12pt;\">listado de los alineamientos de las lecturas en <a href=\"http:\/\/samtools.sourceforge.net\/SAM1.pdf\" target=\"_blank\">formato SAM<\/a><\/span>).<\/p>\n<p><strong>Cuestiones<\/strong>:<\/p>\n<ol>\n<li>\u00bfQu\u00e9 porcentajes de lecturas directas y reversas alinean sobre hg19?<\/li>\n<li>\u00bfQu\u00e9 porcentajes de lecturas mapean en un sitio \u00fanico del genoma y cuales mapean en sitios m\u00faltiples?<\/li>\n<li>\u00bfCuantas uniones de splicing encuentra TopHat en cada muestra?<\/li>\n<li>\u00bfHay una mayor\u00eda de uniones de splicing soportadas por m\u00e1s de 10 lecturas? Para responder a esta pregunta necesitar\u00e1 los datos de la columna 5 del archivo <em>splice_junctions<\/em>.<\/li>\n<\/ol>\n<p><strong>Step 2<\/strong>:\u00a0To view Tophat&#8217;s output, create a simple Galaxy visualization by selecting\u00a0<em>Visualization &gt; <\/em><strong>New Track Browser\u00a0<\/strong>from the main Galaxy menu at the top. Create the visualization using the hg19 build and add datasets to your visualization by clicking on the <em>Add Datasets to Visualization <\/em>button. Add (a) Tophat&#8217;s <em>accepted hits<\/em> BAM datasets, which are the mapped reads; (b) Tophat&#8217;s <em>splice junctions<\/em> datasets, which denote the junctions found by mapping the reads; and (c) the iGenomes gene annotation.<\/p>\n<p>Navigate to chr19 using the select box at the top of visualization and look at the data. Zoom in\u00a0to view the data at greater detail. You can zoom in by (a)\u00a0double-clicking anywhere on the visualization to zoom in on that area or (b) dragging on the base number area at the top of the visualization to create a zoom area; or (c) clicking on the location bar and entering the region with data, chr19:3000000:3500000<\/p>\n<p>You should be able to see:\u00a0(a) the reads mapped by Tophat, including reads mapped across introns (there are a lot of reads!); (b) the splice junctions produced by Tophat; and (c) how Tophat&#8217;s reads and junction correspond to the annotated genes. Find a gene locus where there are mapped reads, and then find an example of a splice junction between 2 known exons, and find an example where a splice junction might be found but is not.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Presentaci\u00f3n Datos Utilizaremos dos conjuntos peque\u00f1os de datos procedentes del proyecto\u00a0Illumina BodyMap 2.0. Se trata de lecturas paired-end de 50 bp de longitud y procedentes de dos tejidos: gl\u00e1ndula suprarrenal y cerebro. Las lecturas mapean principalmente en una region de 500 Kbp del cromosoma 19\u00a0(chr19:3000000-35000000). Con\u00e9ctese a Galaxy e importe estos datos. Una vez completado &hellip; <a href=\"https:\/\/bioinfo2.ugr.es\/genomicafuncional\/rna-seq\/\">Continue reading <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":[],"_links":{"self":[{"href":"https:\/\/bioinfo2.ugr.es\/genomicafuncional\/wp-json\/wp\/v2\/pages\/2143"}],"collection":[{"href":"https:\/\/bioinfo2.ugr.es\/genomicafuncional\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/bioinfo2.ugr.es\/genomicafuncional\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/bioinfo2.ugr.es\/genomicafuncional\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/bioinfo2.ugr.es\/genomicafuncional\/wp-json\/wp\/v2\/comments?post=2143"}],"version-history":[{"count":5,"href":"https:\/\/bioinfo2.ugr.es\/genomicafuncional\/wp-json\/wp\/v2\/pages\/2143\/revisions"}],"predecessor-version":[{"id":2154,"href":"https:\/\/bioinfo2.ugr.es\/genomicafuncional\/wp-json\/wp\/v2\/pages\/2143\/revisions\/2154"}],"wp:attachment":[{"href":"https:\/\/bioinfo2.ugr.es\/genomicafuncional\/wp-json\/wp\/v2\/media?parent=2143"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}