{"id":1489,"date":"2017-11-05T16:45:17","date_gmt":"2017-11-05T14:45:17","guid":{"rendered":"http:\/\/bioinfo2.ugr.es\/biocomputacion\/?page_id=1489"},"modified":"2025-11-05T13:26:44","modified_gmt":"2025-11-05T11:26:44","slug":"practica-2","status":"publish","type":"page","link":"https:\/\/bioinfo2.ugr.es\/biocomputacion\/practica-2\/","title":{"rendered":"Pr\u00e1ctica 2"},"content":{"rendered":"<p>En esta pr\u00e1ctica vamos a genotipar parejas en las que al menos uno de los dos tiene antecedentes familiares para alguna enfermedad heredable (enfermedad mendeliana). Para determiniar el genotipo de los individuos disponemos de datos de secuenciaci\u00f3n masiva.<\/p>\n<p>Datos:\u00a0<a href=\"http:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2017\/11\/29-A_read1.fq_.gz\">29-A_read1.fq<\/a><\/p>\n<p>Para genotipar tenemos que: i) alinear las lecturas, ii) convertir el formato, iii) apilar las lecturas, iv) determinar si hay variaci\u00f3n y determinar el genotipo<\/p>\n<h4>0) indexar la\u00a0 secuencia de referencia (mediante sametools faidx)<\/h4>\n<pre>samtools faidx &lt;reference.fa&gt;<\/pre>\n<p>Este paso ya se llev\u00f3 a cabo para la secuencia del genoma humano hg38.fa que usaremos en esta pr\u00e1ctica. El resultado de este comando es un nuevo fichero con el mismo nombre base que la entrada y extensi\u00f3n .fai. Ese fichero es el \u00edndice de la referencia en fasta.<\/p>\n<h4>1) alinear las lecturas<\/h4>\n<pre>bowtie2 -x \/opt\/genomes\/hg38 -U 29-A_read1.fq_.gz &gt; 29-A_read1.sam<\/pre>\n<p>Formato sam: <a href=\"https:\/\/genome.sph.umich.edu\/wiki\/SAM\">https:\/\/genome.sph.umich.edu\/wiki\/SAM<\/a><\/p>\n<p>El formato sam contiene la informaci\u00f3n de las lecturas ya alineadas. Es un fichero de texto plano (pod\u00e9is abrirlo con cualquier editor y comprobar que se tratan de filas tabuladas). El archivo binario equivalente es bam, y contiene la misma informaci\u00f3n solo que almacenada de forma binaria. Esto hace que muchos programas puedan interactuar m\u00e1s eficientemente. De hecho, muchos programas requieren que el fichero de lecturas alineadas est\u00e9 ya en formato .bam (y a veces tambi\u00e9n se requiere que est\u00e9 ordenado, i.e. primero por cromosoma y despu\u00e9s por coordenadas cromos\u00f3micas).<\/p>\n<h4>2)\u00a0convertir el formato SAM en BAM<\/h4>\n<pre>samtools view -S 29-A_read1.sam -b -o 29-A_read1.bam<\/pre>\n<h4>3) ordenar el bam (por coordenadas)<\/h4>\n<pre>samtools sort 29-A_read1.bam &gt; 29-A_read1_sort.bam<\/pre>\n<p>Una vez que hayamos obtenidos un fichero bam ordenado, podemos llevar a cabo dos tipos de an\u00e1lisis: i) visualizar el apilamento de lecturas y ii) detectar la variaci\u00f3n y el genotipo<\/p>\n<h3><strong>Visualizar<\/strong><\/h3>\n<h4>4) determinar la primera base de la regi\u00f3n con alineamientos<\/h4>\n<pre>samtools view 29-A_read1_sort.bam | more<\/pre>\n<h4><a href=\"http:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/11\/samtools_bam_sorted-1.png\"><img loading=\"lazy\" class=\"alignnone size-medium wp-image-2269\" src=\"http:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/11\/samtools_bam_sorted-1-300x151.png\" alt=\"\" width=\"300\" height=\"151\" srcset=\"https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/11\/samtools_bam_sorted-1-300x151.png 300w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/11\/samtools_bam_sorted-1-1024x516.png 1024w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/11\/samtools_bam_sorted-1-768x387.png 768w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/11\/samtools_bam_sorted-1-360x181.png 360w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/11\/samtools_bam_sorted-1.png 1151w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a><\/h4>\n<p>Fij\u00e1ndonos en la primera l\u00ednea del fichero (desde 29-A-mock2-505\/1 hasta la siguiente l\u00ednea que comienza casi igual), podemos ver que el primer campo es el identificador de la lectura, el segundo es la flag (0, que quiere decir que es una lectura mapeada) el siguiente corresponde al cromosoma y el siguiente a la posici\u00f3n cromos\u00f3mica de inicio del alineamiento.<\/p>\n<h4>5) generar \u00edndice del fichero BAM (.bai)<\/h4>\n<pre>samtools index 29-A_read1_sort.bam\r\n<\/pre>\n<h4>6) visualizar los alineamientos apilados<\/h4>\n<pre>samtools tview 29-A_read1_sort.bam \/opt\/genomes\/hg38.fa -p chrX:31477282<\/pre>\n<p><a href=\"http:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/11\/lecturas_apiladas.png\"><img loading=\"lazy\" class=\"alignnone size-medium wp-image-2271\" src=\"http:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/11\/lecturas_apiladas-300x201.png\" alt=\"\" width=\"300\" height=\"201\" srcset=\"https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/11\/lecturas_apiladas-300x201.png 300w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/11\/lecturas_apiladas-768x514.png 768w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/11\/lecturas_apiladas-360x241.png 360w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/11\/lecturas_apiladas.png 968w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a><\/p>\n<p>Pod\u00e9is navegar usando las teclas de flecha. En la primera l\u00ednea pod\u00e9is ver la coordenada cromos\u00f3mica y en la segunda la secuencia de referencia. Cada fila debajo de la l\u00ednea continua se corresponde a un read alineado. Un punto indica que la secuencia del read corresponde a la referencia y una letra indica un nucle\u00f3tido alternativo a la referencia para ese read concreto.<\/p>\n<h3>Detectar la variaci\u00f3n y el genotipo<\/h3>\n<p>Como pod\u00e9is ver en el fichero,\u00a0 hay distintos reads que difieren respecto a la referencia en (al menos) una posici\u00f3n. \u00bfQuiere esto decir que se trata de una variante? Las diferencias resaltan m\u00e1s que las similitudes pero recuerda que todos los puntos quieren decir que esa posici\u00f3n concuerda con la referencia. Por lo tanto, si en una posici\u00f3n mapean 10 reads y solo uno contiene un nucle\u00f3tido diferente a la referencia, \u00bfdebemos pensar que se trata de una variante? La secuenciaci\u00f3n es un proceso con relativa alta precisi\u00f3n pero si cada read tiene longitud 100, asumiendo una precisi\u00f3n del 99%, esperamos (de media) un nucle\u00f3tido &#8220;err\u00f3neo&#8221; por cada read.<\/p>\n<p>Estos factores se han tenido en cuenta a la hora de desarrollar los programas que permiten determinar el genotipo (variant calling).<\/p>\n<h4>7)\u00a0 Apilar las lecturas<\/h4>\n<pre>\/\/samtools mpileup [options] in1.bam [in2.bam [...]]\r\nsamtools mpileup -g -f \/opt\/genomes\/hg38.fa 29-A_read1_sort.bam &gt; 29-A_read1_sort_raw.bcf\r\n\r\n-g --&gt; genera salida bcf (formato binario del vcf, variant call format)<\/pre>\n<h4>8) Determinar la variaci\u00f3n y el genotipo<\/h4>\n<pre>bcftools call -c -v 29-A_read1_sort_raw.bcf &gt; 29-A_read1.vcf\r\n\r\n\/\/ -c --&gt; SNP calling\r\n\/\/ -v --&gt; only variant sites<\/pre>\n<p>descarga el fichero y \u00e1brelo en un editor de texto.<\/p>\n<p>resultado: \u00faltimas 2 lineas del fichero <em><strong>29-A_read1.vcf\u00a0<\/strong> <\/em>(el resto es el encabezado)<\/p>\n<p>Explicaci\u00f3n detallada del formato <a href=\"https:\/\/samtools.github.io\/hts-specs\/VCFv4.2.pdf\" target=\"_blank\" rel=\"noopener\">vcf\u00a0<\/a><\/p>\n<p>#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT 29-A_read1_sort.bam<br \/>\n<span style=\"color: #339966;\">chrX 31478281<\/span> . T C 130 . <span style=\"color: #ff0000;\">DP=33<\/span>;VDB=1.260432e-01;RPB=-2.141714<br \/>\ne+00;<span style=\"color: #ff0000;\">AF1=0.5<\/span>;AC1=1;DP4=13,0,18,0;MQ=42;FQ=119;PV4=1,0.17,1,0.46 <span style=\"color: #3366ff;\">GT<\/span>:PL:GQ <span style=\"color: #3366ff;\">0\/1:<\/span>160,0,146:99<\/p>\n<p><strong>Campos importantes<\/strong><\/p>\n<ul>\n<li><span style=\"color: #339966;\">chrX 31478281: cromosoma y posici\u00f3n<\/span><\/li>\n<li>DP: el n\u00famero de lecturas mapeadas<\/li>\n<li>AF1: frecuencia al\u00e9lica del primer alelo alternativo<\/li>\n<li>GT: el genotipo, 0\/1 significa que es heterocigoto alelo de referencia (T) &amp; primer alelo alternativo (C)<\/li>\n<\/ul>\n<h4>9) Determinar si se conoce la variaci\u00f3n<\/h4>\n<p>Hasta aqu\u00ed hemos completado la parte puramente t\u00e9cnica del ejercicio: a partir de los datos de secuenciaci\u00f3n hemos determinado el genotipo del individuo. En los siguientes pasos intentaremos averiguar varias cosas:<\/p>\n<ul>\n<li>si esta variante es conocida<\/li>\n<li>si se encuentra en alg\u00fan lugar del genoma y si puede corresponder a un cambio en la traducci\u00f3n de una prote\u00edna<\/li>\n<li>consecuencias fenot\u00edpicas de ese posible cambio<\/li>\n<\/ul>\n<p>usa el <a href=\"https:\/\/genome-euro.ucsc.edu\/cgi-bin\/hgGateway?redirect=manual&amp;source=genome.ucsc.edu\">navegador del UCSC<\/a> para ver si hay un SNP anotado en esa posici\u00f3n. Introduce la posici\u00f3n y navega al track dbSNP (act\u00edvalo si no lo est\u00e1). Pinchando en el track te llevar\u00e1 a un panel donde aparece el identificador del SNP (t\u00edpicamente empiezan por <em>rs<\/em>)<\/p>\n<p>&nbsp;<\/p>\n<p><a href=\"http:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/ucsc_snp.png\"><img loading=\"lazy\" class=\"alignnone wp-image-2287\" src=\"http:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/ucsc_snp-300x119.png\" alt=\"\" width=\"449\" height=\"178\" srcset=\"https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/ucsc_snp-300x119.png 300w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/ucsc_snp-1024x407.png 1024w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/ucsc_snp-768x305.png 768w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/ucsc_snp-360x143.png 360w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/ucsc_snp.png 1382w\" sizes=\"(max-width: 449px) 100vw, 449px\" \/><\/a><\/p>\n<h4>10) Determinar el efecto usando la <a href=\"https:\/\/www.ncbi.nlm.nih.gov\/projects\/SNP\/\" target=\"_blank\" rel=\"noopener noreferrer\">dbSNP<\/a><\/h4>\n<p><a href=\"http:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/snpdb.png\"><img loading=\"lazy\" class=\"alignnone size-medium wp-image-2289\" src=\"http:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/snpdb-300x133.png\" alt=\"\" width=\"300\" height=\"133\" srcset=\"https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/snpdb-300x133.png 300w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/snpdb-768x340.png 768w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/snpdb-360x159.png 360w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/snpdb.png 881w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a><\/p>\n<p>&nbsp;<\/p>\n<p>La posici\u00f3n chrX:31478281 corresponde al SNP rs1800279.<\/p>\n<p>si lo buscamos en la base de datos dbSNP encontramos que causa un cambio de sentido err\u00f3neo (missense)\u00a0<span class=\"codon-ghost\">C<\/span><span class=\"missense\" style=\"color: #ff0000;\">A<\/span><span class=\"codon-ghost\">C<\/span>\u00a0\u21d2\u00a0<span class=\"codon-ghost\">C<\/span><span class=\"missense\" style=\"color: #ff0000;\">G<\/span><span class=\"codon-ghost\">C\u00a0<\/span>en diferentes transcritos del gen DMD<\/p>\n<p><a href=\"http:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/snpde_gene.png\"><img loading=\"lazy\" class=\"alignnone size-medium wp-image-2290\" src=\"http:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/snpde_gene-300x197.png\" alt=\"\" width=\"300\" height=\"197\" srcset=\"https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/snpde_gene-300x197.png 300w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/snpde_gene-768x505.png 768w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/snpde_gene-360x237.png 360w, https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2021\/12\/snpde_gene.png 791w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a><\/p>\n<p><span style=\"color: #ff0000;\"><strong>Importante<\/strong><\/span><\/p>\n<p><span style=\"color: #ff0000;\">el gen DMD se ubica en la hebra &#8216;-&#8216; y por eso se dan los dos alelos como A y G, y no como T y C detectados arriba en la hebra &#8216;+&#8217;<\/span><\/p>\n<h4>11) buscar el fenotipo asociado las bases de datos <a href=\"https:\/\/www.ncbi.nlm.nih.gov\/clinvar\/\" target=\"_blank\" rel=\"noopener noreferrer\">ClinVar<\/a> y <a href=\"https:\/\/www.omim.org\/\" target=\"_blank\" rel=\"noopener noreferrer\">OMIM<\/a><\/h4>\n<p>Puesto que defectos en el gen DMD est\u00e1n asociados a una distrofia muscular, debemos comprobar en estas dos bases de datos si se han descrito casos donde esta variante sea responsable de la enfermedad.<\/p>\n<p>Comprobando la informaci\u00f3n disponible en ambas bases de datos, podemos concluir que esta variante no parece tener efectos patog\u00e9nicos a pesar de alterar la secuencia de amino\u00e1cidos de la prote\u00edna resultante (Likely benign\/ benign).<\/p>\n<h4>Cuestiones*:<\/h4>\n<ol>\n<li>\u00bfCual es la frecuencia del alelo menor?<\/li>\n<li>Si este individuo (mujer) tuviera un hijo con el individuo 29-C (<a href=\"http:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2017\/11\/29-C_read1.fq_.gz\">29-C_read1.fq<\/a>), \u00bfcual ser\u00eda la probabilidad de que sus hijos\/hijas padezcan la distrofia muscular?<\/li>\n<li>Qua es la probabilidad de que los ni\u00f1os\/ni\u00f1as de los siguientes individuos padezcan distrofia muscular: Padre:\u00a0<a href=\"http:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2017\/11\/29-D_read1.fq_.gz\">29-D_read1.fq\u00a0<\/a>; Madre:\u00a0<a href=\"http:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-content\/uploads\/2017\/11\/29-B_read1.fq_.gz\">29-B_read1.fq<\/a><\/li>\n<\/ol>\n<h4>Recomendaciones y m\u00e1s informaci\u00f3n:<\/h4>\n<ol>\n<li>Leer este cap\u00edtulo:\u00a0<a href=\"http:\/\/www.sciencedirect.com\/science\/article\/pii\/B9780124047488000083\">http:\/\/www.sciencedirect.com\/science\/article\/pii\/B9780124047488000083<\/a><\/li>\n<li>Si ninguna variaci\u00f3n de secuencia es detectada, podemos cambiar algunos par\u00e1metros en el paso del mpileup para hacer la detecci\u00f3n m\u00e1s laxa: <a href=\"http:\/\/www.htslib.org\/doc\/samtools.html\" target=\"_blank\" rel=\"noopener noreferrer\">http:\/\/www.htslib.org\/doc\/samtools.html<\/a><\/li>\n<\/ol>\n<p style=\"padding-left: 60px;\">-B: deshabilitar el realineamiento probabilistico<\/p>\n<p style=\"padding-left: 60px;\">-E: recalculando la calidad del alineamiento<\/p>\n<p style=\"padding-left: 60px;\">-Q: cambiar la calidad m\u00ednima de una base<\/p>\n<p style=\"padding-left: 30px;\">3. Calcular la probabilidad de que exista variaci\u00f3n de secuencia mediante una tabla de contingencia:\u00a0<a href=\"http:\/\/vassarstats.net\/tab2x2.html\" target=\"_blank\" rel=\"noopener noreferrer\">http:\/\/vassarstats.net\/tab2x2.html<\/a><\/p>\n<p>*<strong><span style=\"text-decoration: underline;\">Nota del profesor<\/span><\/strong>: este ejercicio se prepar\u00f3 cuando la evidencia disponible apuntaba a que esta variante S\u00cd PROVOCABA Distrofia muscular de Duchenne. Para realizar el ejercicio propuesto, considera que esta variante S\u00cd PROVOCA la enfermedad (a pesar de que los datos actualmente indican que no).<\/p>\n<h4>12) Crear un programa en python para automatizar el genotipado<\/h4>\n","protected":false},"excerpt":{"rendered":"<p>En esta pr\u00e1ctica vamos a genotipar parejas en las que al menos uno de los dos tiene antecedentes familiares para alguna enfermedad heredable (enfermedad mendeliana). Para determiniar el genotipo de los individuos disponemos de datos de secuenciaci\u00f3n masiva. Datos:\u00a029-A_read1.fq Para <a href=\"https:\/\/bioinfo2.ugr.es\/biocomputacion\/practica-2\/\" class=\"read-more\">Read More &#8230;<\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":[],"_links":{"self":[{"href":"https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-json\/wp\/v2\/pages\/1489"}],"collection":[{"href":"https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-json\/wp\/v2\/comments?post=1489"}],"version-history":[{"count":15,"href":"https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-json\/wp\/v2\/pages\/1489\/revisions"}],"predecessor-version":[{"id":2637,"href":"https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-json\/wp\/v2\/pages\/1489\/revisions\/2637"}],"wp:attachment":[{"href":"https:\/\/bioinfo2.ugr.es\/biocomputacion\/wp-json\/wp\/v2\/media?parent=1489"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}