Especies a Analizar
Especie | Ensamblado | Base de Datos |
---|---|---|
Human | hg38 | UCSC |
Chimp | panTro6 | UCSC |
Rhesus | rheMac10 | UCSC |
Mouse | mm39 | UCSC |
Rat | rn7 | UCSC |
Pig | susScr11 | UCSC |
Cow | bosTau9 | UCSC |
Dog | canFam6 | UCSC |
Cat | felCat9 | UCSC |
Chicken | galGal6 | UCSC |
Turkey | melGal5 | UCSC |
Lizard | anoCar2 | UCSC |
Xenopus | xenTro10 | UCSC |
Zebrafish | danRer11 | UCSC |
Fugu | fr3 | UCSC |
Coelacanth | latCha1 | UCSC |
C. intestinalis | C. intestinales (2013) | GenArk |
C. elegans | WBcell235 Feb. 2013 | GenArk |
D. melanogaster | dm6 | UCSC |
Honey bee | Amel_HAv3.1 | GenArk |
African malarian mosquito | primary Hhap 2022 | GenArk |
Shiitake mushroom | lenedo1 | GenArk |
Penicillium chrysogenum | IBT 35668 2023 | GenArk |
Magic mushroom | psiCub | GenArk |
Thale crees | TAIR10.1 | GenArk |
Japanese Rice (2023) | ASM3414082v1 | GenArk |
Soybean | glyMax v4.0 Mar. 2021 | GenArk |
Tomato | SL3.1 Apr. 2018 | GenArk |
Formatos Básicos
Ficheros de Secuencias
Los ficheros de secuencias son ficheros de texto que contienen una representación alfabética de secuencias de nucleotidos y/o proteínas. Generalmente se denominan ficheros fasta, cuando contienen una sola secuencia, o multifasta, cuando continene múltiples secuencias. Estos se pueden encontrar con diferentes extensiones como: *.fa, *.fasta o *.fas.
Cada secuencias incluída en el fichero está compuesta por una línea identificadora o cabecero, que inicia con el caracter “>” y una línea secuencia que se encuentra debajo de su identificador.
Por otro lado, cada caracter incluido en las líneas secuencias de un fichero fasta representa un nucleótido/aminoácido o caracteres ambiguos que representas múltiples opciones, como se indica en la siguiente tabla.
Anotación de regiones/elementos
Los elementos genómicos no son más que regiones en un especio bidimensional, por lo que pueden ser identificados como dos puntos en una línea, es decir dos valores numéricos o coordenadas que representan la posición de inicio y de final del elemento en la secuencia genómica o proteínica.
A nivel de genomas las coordenadas cromosómicas se refieren a una especie, ensamblado y cromosoma determinado. Los ensamblados son versiones diferentes del genoma de una misma especie, y estas versiones se referencian con numeración ascendente, por lo tanto, cuanto más reciente sea el ensamblado mayor será la numeración de su identificador. Por ejemplo, para la especie humana (a fecha de julio 2022), el más reciente es el ensamblado GRCh38, siendo el anterior GRCh37. Además, cada uno de estos ensamblados puede presentar numerosos parches (el más reciente para el ensamblado GRCh38 es el parche 14, y se referencia a continuación del ensamblado de la siguiente manera: GRCh38.p14). La principal diferencia entre parches y ensamblados es que en los parches sólo se modifica la composición de la secuencia, mientras que entre ensamblados suele cambiar la longitud de los cromosomas, y por lo tanto de las posiciones de los elementos genómicos de los mismos. Esto se debe a que, en nuevas versiones del ensamblado de una especie, gracias a nuevos análisis de los datos crudos de secuenciación o mejoras en las técnicas de secuenciación, se consigue una mayor resolución para determinar la secuencia de regiones compactas del ADN (regiones heterocromáticas) previamente inaccesibles, o se mejora el ensamblado de elementos repetidos previamente difíciles de determinar su ubicación exacta. En la página web del NCBI podéis encontrar información detallada a este respecto: https://www.ncbi.nlm.nih.gov/grc.
Ficheros de anotación
Los ficheros de anotación de regiones genómicas más sencillos son los ficheros BED, al igual que las secuencias son ficheros de texto pero en este caso tabulados donde cada línea representa un elemento finito en una secuencia con una coordenada de inicio y otra de final.
Su extensión más habitual es *.bed, aunque pueden encontrarse con cualquier tipo de extensión. Los ficheros BED más sencillos incluyen 3 columnas con la siguiente información en orden: secuencia a la que hace referencia (cromosoma por ejemplo), coordenada de inicio y coordenada de final. Sin embargo, se pueden encontrar ficheros BED que incluyen información más compleja mediante la adición de hasta 12 columnas, que pueden utilizarse para anotar estructuras más complejas como la distribución de exones e intrones en un gen.
Las coordenadas de la anotación han heredado históricamente las especificidades de los lenguajes de programación que se usaban en el momento de su definición. En el caso de los ficheros BED, el lenguaje mayoritario cuando se definió utilizaba una anotación en base 0, por lo que las coordenadas incluídas en el fichero deben empezar a contar antes de la primera base de la secuencia (posición 0), mientras que otro tipo de anotaciones cuentan posición a posición (base 1).