Ejercicios NGS – Biocomputación

El control de la calidad de las lecturas normalmente incluye dos pasos:

Eliminación del extremo 3’ que está por debajo del umbral de calidad
Detección y eliminación del adaptador

Datos de prueba

Protocolo de análisis (para completar el protocolo debéis entrar en el servidor de docencia)

0) descargar el fichero

wget -c http://bioinfo2.ugr.es/biocomputacion/wp-content/uploads/2017/11/DRR001650_part.fastq_.gz

1) descomprimir el fichero

gunzip DRR001650_part.fastq_.gz

el resultado es un fichero fastq_

2) renombrar el fichero (opcional)

mv   nombre_original.fastq_   nombre_nuevo.fastq

3) visualizar parte del fichero

more     nombre_nuevo.fastq

4) lanzar fastqc

Para determinar la calidad del conjunto de datos, vamos a usar el programa fastQC que se encuentra instalado en /opt/FastQC

Para lanzar el programa, solo tenemos que proporcionar el fichero

Página de fastQC: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

Ayuda de fastqc: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/

fastqc nombre_nuevo.fastq &

El resultado de este comando es un fichero html (con el mismo nombre seguido de _fastqc.html). Para visualizarlo podéis descargarlo a vuestro ordenador y abrirlo con un navegador web (Chrome o Firefox). Explorad el report para ver los distintos parámetros de calidad.

5) detectar el adaptador y eliminar el extremo 3’ con baja calidad

trim_galore nombre_nuevo.fastq

Manual de trim_galore:

http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/trim_galore_User_Guide_v0.3.7.pdf

y del cutadapt (que usa el trim_galore)

https://cutadapt.readthedocs.io/en/stable

Trimgalore generará un fastq con las secuencias “recortadas”, es decir sin el adaptardor y eliminando los reads (o fragmentos de reads) de baja calidad

Cuestiones

Comparar el resumen de calidad producido por fastqc antes y después de usar trim_galore (presta especial atención a los parámetros que se pueden ver afectados por el trimming: per base quality, adapter content).
Explorar el parámetro –q del trim_galore (el umbral del PhredScore)
¿Que haríamos con los datos de prueba 1?
Discutir el método empleado por trim_galore (cutadapt)
Analizar el segundo conjunto de datos (test data 2). ¿Como evaluamos este segundo conjunto?