Los alineamientos múltiples también pueden utilizarse para inferir relaciones evolutivas entre diferentes secuencias. Para ello, una vez alineadas correctamente las secuencias debes inferir las distancias evolutivas en base a las similitudes entre las secuencias y representar estas distancias por medio de árboles filogenéticos.
The Newick tree format
Programas de alineamiento múltiple
Programas para generar filogenias
Ejercicio
A partir de tres conjuntos de proteínas homólogas en primates, determinaremos cuál de ellas es mejor estimador de la filogenia entre estas especies. Las proteínas a estudiar serán la cadena alfa del colágeno tipo XXIII, ATP sintetasa 6, la myoglobina y el citocromo c.
- Descarga los 3 ficheros con los multifasta
- Utilizaremos T-Coffee para inferir los alineamientos múltiples. Recuerde seleccionar la opción de alineamiento de proteínas y el uso de matrices BLOSUM. La salida la obtendremos en formato ClustalW. Inspeccione los resultados obtenidos, número de sustituciones en cada proteína estudiada, árbol filogenético proporcionado por T-Coffee y descargue los alineamientos en ficheros. ¿Existen diferencias en el número de sustituciones entre proteínas? ¿Por qué?
- Utilizando los alineamiento en formato ClustalW y mediante la herramienta CLUSTALW2 inferiremos los árboles filogenéticos utilizando el método de Neighbor-joining. Recuerde activar la corrección de distancias y la exclusión de huecos del alineamiento. Observe los árboles filogenéticos, ¿son diferentes a los obtenidos mediante T-Coffee? Revise sus alineamiento y determine a qué se puede deber.
- Para inferir árboles basados en el método de máxima verosimilitud deberemos alinear de nuevo nuestras secuencias con T-Coffee, pero esta vez seleccionando la salida PHYLIP. Guarde la salidas en diferentes ficheros.
- Las salidas PHYLIP se utilizarán para inferir los árboles con la herramienta PhyML.
- Añada una secuencia “outgroup” a las secuencias de primates y repita el ejercicio. Para obtener dicha secuencia puede utilizar el programa blastp para buscar secuencias similares de otras especies mediante la pestaña taxonomy en los resultados o directamente buscar la proteína para el “outgroup” de elección en el buscador del NCBI.
- ¿Cuál de las proteínas seleccionadas arroja un resultado más robusto? ¿Por qué?
- ¿Y en cuanto al método? ¿Pueden observarse diferencias?
- ¿Puedes dar una explicación a los resultados observados?
- ¿Cómo cambian los resultados al añadir una secuencia “outgroup”?