Intro NGS

La aparición de métodos de secuenciación masiva a mitad de la década pasada ha revolucionado todo el campo de la biología molecular, pero especialmente ha impactado en el enfoque de la biocomputación. Estos nuevos métodos permiten secuenciar varios ordenes de magnitud más cantidad de ADN por día y laboratorio que fue posible con los métodos tradicionales de Sanger. Además, existen diferentes protocolos que permiten responder a una serie de problemas biológicos:

¿Qué variantes de riesgo a ciertas enfermedades lleva un individuo?:

Respuesta: (re)secuenciar el genoma de este individuo, alinear las lecturas frente al genoma de referencia y determinar el genotipo en cada posición. La combinación alélica nos dará información acerca de la predisposición a ciertas enfermedades

¿Qué genes cambian sus niveles de expresión en una condición dada (enfermedad, cambio de ambiente, tratamiento con un fármaco, etc.)?

Respuesta: Extraer el RNA total, purificar transcritos con cola poli-A, convertirlo en una librería cDNA, secuenciar, alinear las lecturas frente a una lista de genes de referencia y contabilizar el número de lecturas por gen. Cuantos más fragmentos de un gen han sido secuenciados, más alto era su nivel de transcripción. Los genes que se expresan de forma diferencial pueden estar implicados en el fenotipo analizado. El mismo protocolo añadiendo una selección por longitud previo se puede aplicar para determinar los perfiles de expresión de los microRNAs.

¿Qué genes regula un factor de transcripción dado?

Respuesta: Crear enlaces covalentes entre proteínas y el ADN, lisar las células y fragmentar el ADN, inmunoprecipar mediante un anticuerpo especifico frente a la proteína que queremos analizar, purificar el ADN , secuenciar el ADN, mapear las lecturas a un genoma de referencia y detectar las regiones con muchas lecturas mapeadas. Las regiones con muchas lecturas son las a las que se había unido el factor de transcripción.

Independientemente del protocolo, el resultado de la secuenciación siempre es un fichero en formato fastq que suele ser el punto de partida del análisis bioinformático. Este formato contiene básicamente la secuencia de las lecturas y sus correspondientes calidades. Para cada nucleótido secuenciado hay un carácter que indica la calidad de secuenciación de este nucleótido. Mediante el código ASCII se puede obtener el Phred Score que tiene una interpretación muy simple: un valor de 10 indicaría que 1 de cada 10 bases con este valor estarían mal secuenciadas, mientras un valor de 30 indicaría que 1 entre 1000 lo fueran.

Mediante la calidad se pueden eliminar lecturas probablemente espurias o ignorar una posición dada. Esto es especialmente importante en la detección de la variación de secuencia para no confundir variación con errores de secuenciación.