Intro EMBOSS

A partir de una secuencia de ADN se pueden calcular una seria de propiedades composicionales que nos pueden facilitar información valida acerca de la secuencia y su organismo portador. El contenido en G+C de una secuencia es simplemente la fracción de guaninas y citosinas sobre el total de las 4 bases (en ausencia de bases ambiguas, este número es idéntico a la longitud de la secuencia). Su análisis a lo largo de la secuencia nos puede dar una idea donde se localizan promotores y exones, regiones que se suelen caracterizar por destacar en su contenido en G+C sobre su entorno.

Sin embargo, aún más informativo es la frecuencia de los dinucleótidos. En mamíferos existen metiltransferasas que metilan las citosinas en un contexto CpG. Una citosina metilada desamina espontáneamente hacia timina, y no hacia uracilo como una citosina nometilada. Por ello, la metilación es el principal causante de mutaciones puntuales y cerca de dos tercios de todos los SNPs en la población humana se encuentran en el contexto CpG. La metilación de citosinas por lo tanto causa la perdida evolutiva de dinucleótidos CpG y en una secuencia típica de un mamífero se detectan solamente la quinta parte de los CpGs esperados. Por lo tanto, solamente mediante un análisis de las frecuencias de dinucleótidos podemos determinar si la secuencia anónima proviene de un mamífero o no.