Los alineamientos múltiples también pueden utilizarse para inferir relaciones evolutivas entre diferentes secuencias. Para ello, una vez alineadas correctamente las secuencias debes inferir las distancias evolutivas en base a las similitudes entre las secuencias y representar estas distancias por medio de árboles filogenéticos.

The Newick tree format

MEGA

Programas de alineamiento múltiple

Programas para generar filogenias


Ejercicio

A partir de tres conjuntos de proteínas homólogas en primates, determinaremos cuál de ellas es mejor estimador de la filogenia entre estas especies. Las proteínas a estudiar serán la cadena alfa del colágeno tipo XXIII, ATP sintetasa 6, la myoglobina y el citocromo c.

  1. Descarga los 3 ficheros con los multifasta
  2. Utilizaremos T-Coffee para inferir los alineamientos múltiples. Recuerde seleccionar la opción de alineamiento de proteínas y el uso de matrices BLOSUM. La salida la obtendremos en formato ClustalW. Inspeccione los resultados obtenidos, número de sustituciones en cada proteína estudiada, árbol filogenético proporcionado por T-Coffee y descargue los alineamientos en ficheros. ¿Existen diferencias en el número de sustituciones entre proteínas? ¿Por qué?
  3. Utilizando los alineamiento en formato ClustalW y mediante la herramienta CLUSTALW2 inferiremos los árboles filogenéticos utilizando el método de Neighbor-joining. Recuerde activar la corrección de distancias y la exclusión de huecos del alineamiento. Observe los árboles filogenéticos, ¿son diferentes a los obtenidos mediante T-Coffee? Revise sus alineamiento y determine a qué se puede deber.
  4. Para inferir árboles basados en el método de máxima verosimilitud deberemos alinear de nuevo nuestras secuencias con T-Coffee, pero esta vez seleccionando la salida PHYLIP. Guarde la salidas en diferentes ficheros.
  5. Las salidas PHYLIP se utilizarán para inferir los árboles con la herramienta PhyML.
  6. Añada una secuencia “outgroup” a las secuencias de primates y repita el ejercicio. Para obtener dicha secuencia puede utilizar el programa blastp para buscar secuencias similares de otras especies mediante la pestaña taxonomy en los resultados o directamente buscar la proteína para el “outgroup” de elección en el buscador del NCBI.
  • ¿Cuál de las proteínas seleccionadas arroja un resultado más robusto? ¿Por qué?
  • ¿Y en cuanto al método? ¿Pueden observarse diferencias?
  • ¿Puedes dar una explicación a los resultados observados?
  • ¿Cómo cambian los resultados al añadir una secuencia “outgroup”?