Las secuencias de genes y proteínas se almacenan en bases de datos estructuradas de forma que sea fácil su almacenamiento y recuperación.
Además de estas bases de datos primarias, existen otras muchas bases de datos derivadas con información más específica: estructuras 3D, perfiles de expresión génica, metilación del ADN, estado de la cromatina, ……
También son interesantes las bases de datos de genomas completos, y las bases de datos bibliográficas con referencia a secuencias.
Secuencias de ADN
Existen dos principales bases de datos públicas de secuencias de ADN, una europea (EMBL Nucleotide Sequence Database) y otra americana (GenBank).
El contenido de ambas bases de datos es ahora similar (de hecho, se sincronizan continuamente), pero el formato de los registros es diferente.
Codificación de la información
- Con la excepción tan solo de algunos virus, el material genético está constituido por DNA.
- El DNA generalmente consiste de dos cadenas complementarias arrolladas una en torno a otra para formar una hélice dextrógira. Cada cadena es un polinucleótido lineal de dos purinas R (A y G) y dos pirimidinas Y (T y C).
- Mientras que los nucleótidos de una misma cadena se unen por enlaces fosfodiester (covalentes), los que se situan en cadenas complementarias se unen por enlaces más débiles (puentes de hidrógeno). Estos se establecen entre bases complementarias: AT (W, weak) y CG (S, strong).
- El enlace fosfodiester entre los nucleótidos de una misma cadena se establece entre el fosfato terminal en 5′ y el OH terminal en 3′. En consecuencia, cada hebra de DNA está orientada, es decir, tiene una polaridad. La doble hélice se forma por el apareamiento de cadenas antiparalelas.
- La orientación del polinucleótido hace que la secuencia 5′-G-C-A-A-T-3′ no sea la misma que 3′-G-C-A-A-T-5′.
- Por convención, las secuencias de DNA se escriben en el sentido en que se transcriben, es decir desde el extremo 5′ (a la izquierda, aguas arriba) hasta el 3′ (a la derecha, aguas abajo).
- Por convención también, la hebra que se suele almacenar en las bases de datos es la que NO se transcribe (en el caso de que se conozca), por la sencilla razón de que tiene la misma secuencia que el RNA mensajero (T –>U).
- La longitud se expresa en bp (pares de bases en el DNA y en el RNA de doble cadena, y bases en el RNA de cadena sencilla), Kb y Mb.
Secuencias de proteínas
Genomas completos
En las bases de datos de secuencias de nucleótidos que acabamos de ver (EMBL, GenBank) se pueden encontrar las secuencias totales o parciales de muchos genes. Sin embargo, las secuencias genómicas completas (los llamados ensamblados cromosómicos o genómicos) son menos abundantes.
Tanto el EBI como el NCBI mantienen actualizadas sendas tablas con los genomas que se van completando. Estas páginas permiten descargarse el genoma completo de un número creciente de organismos.
Ejercicios
A
- Busque ‘hiv2ben’ en el NCBI
- Verá que aparecen 2 registros en el apartado Genomes -> Nucleotide
- Pinche sobre ‘Human immunodeficiency virus type 2, complete proviral genome’. Se obtiene la entrada del HIV en formato GenBank (10312 bp).
- Examine los primeros apartados de la anotación: LOCUS, DEFINITION, ACCESSION… y sus distintos campos. Anote el número de registro (Accession) asignado a esta secuencia: U38293
- Analice en detalle la tabla de FEATURES: gene, CDS, translation…
- Busque la linea ORIGIN y preste atención a la manera en que se lista la secuencia de nucleótidos
- Guarde en disco una copia de la entrada: Arriba a la derecha (Send –> Complete record –> File –> Format GenBank –> Create File) y elija una carpeta para guardarla. Después envíe el archivo a su buzón de correo.
B
- Vuelva al principio de la entrada y pinche en ‘FASTA’.
- Nótese el formato compacto para la secuencia y la única linea de anotación comenzando por el símbolo ‘>’
C
- Pinche ahora en ‘Graphics’ y explore la secuencia con ayuda del navegador gráfico
- Haga zoom hasta el nivel de secuencia mediante el boton ‘ATG’, muévase con las flechas a derecha e izquierda y examine los codones de inicio y de stop de cada gen
- Utilice el botón ‘Link to this page’ (arriba a la derecha) para obtener un enlace a esa página (Tiny URL) y enviarlo a su buzón de correo
D
- Usando el número de registro U38293, busque ahora esta secuencia en la base de datos de nucleótidos del EMBL
- Pinche en el enlace correspondiente en el apartado ‘Nucleotide sequences’ y examine la entrada con el navegador integrado.
- Pinche en el botón TEXT (arriba a la izquierda) o en la pestaña Sequence y examine la entrada en formato EMBL. Note las diferencias con el formato GenBank.
- En el panel gráfico ‘Overview’ cambie las coordenadas para examinar distintas partes de la secuencia (Base range, arriba a la derecha).
- Pinchando con el botón derecho sobre el panel ‘Overview’, guarde una imagen en formato jpeg de una región de la secuencia y envíela a su buzón de correo.