Bases de datos – Análisis de secuencias

Las secuencias de genes y proteínas se almacenan en bases de datos estructuradas de forma que sea fácil su almacenamiento y recuperación.

Además de estas bases de datos primarias, existen otras muchas bases de datos derivadas con información más específica: estructuras 3D, genes, perfiles de expresión génica…

También son interesantes las bases de datos de genomas completos, y las bases de datos bibliográficas con referencia a secuencias.

Estadística

Clases de secuencias

Secuencias de ADN

Existen dos principales bases de datos públicas de secuencias de ADN, una europea (EMBL Nucleotide Sequence Database) y otra americana (GenBank).

El contenido de ambas bases de datos es ahora similar (de hecho, se sincronizan continuamente), pero el formato de los registros es diferente.

Nucleotide Base Codes (IUPAC)

EMBL European Bioinformatics Institute 2013-10-16 13-43-33

Entrada de ejemplo

National Center for Biotechnology Information 2013-10-16 13-44-21

Entrada de ejemplo

Codificación de la información

Con la excepción tan solo de algunos virus, el material genético está constituido por DNA.
El DNA generalmente consiste de dos cadenas complementarias arrolladas una en torno a otra para formar una hélice dextrógira. Cada cadena es un polinucleótido lineal de dos purinas R (A y G) y dos pirimidinas Y (T y C).
Mientras que los nucleótidos de una misma cadena se unen por enlaces fosfodiester (covalentes), los que se situan en cadenas complementarias se unen por enlaces más débiles (puentes de hidrógeno). Estos se establecen entre bases complementarias: AT (W, weak) y CG (S, strong).
El enlace fosfodiester entre los nucleótidos de una misma cadena se establece entre el fosfato terminal en 5′ y el OH terminal en 3′. En consecuencia, cada hebra de DNA está orientada, es decir, tiene una polaridad. La doble hélice se forma por el apareamiento de cadenas antiparalelas.
La orientación del polinucleótido hace que la secuencia 5′-G-C-A-A-T-3′ no sea la misma que 3′-G-C-A-A-T-5′.
Por convención, las secuencias de DNA se escriben en el sentido en que se transcriben, es decir desde el extremo 5′ (a la izquierda, aguas arriba) hasta el 3′ (a la derecha, aguas abajo).
Por convención también, la hebra que se suele almacenar en las bases de datos es la que NO se transcribe (en el caso de que se conozca), por la sencilla razón de que tiene la misma secuencia que el RNA mensajero (T –>U).
La longitud se expresa en bp (pares de bases en el DNA y en el RNA de doble cadena, y bases en el RNA de cadena sencilla), Kb y Mb.

Secuencias de proteínas

Genomas completos

En las bases de datos de secuencias de nucleótidos que acabamos de ver (EMBL, GenBank) se pueden encontrar las secuencias totales o parciales de muchos genes. Sin embargo, las secuencias genómicas completas (los llamados ensamblados cromosómicos o genómicos) son menos abundantes.

Tanto el EBI como el NCBI mantienen actualizadas sendas tablas con los genomas que se van completando. Estas páginas permiten descargarse el genoma completo de un número creciente de organismos.

Ejercicios

A

Busque ‘hiv2ben’ en el NCBI
Verá que aparecen 2 registros en el apartado Genomes -> Nucleotide
Pinche sobre ‘Human immunodeficiency virus type 2, complete proviral genome’. Se obtiene la entrada del HIV en formato GenBank (10312 bp).
Examine los primeros apartados de la anotación: LOCUS, DEFINITION, ACCESSION… y sus distintos campos. Anote el número de registro (Accession) asignado a esta secuencia: U38293
Analice en detalle la tabla de FEATURES: gene, CDS, translation…
Busque la linea ORIGIN y preste atención a la manera en que se lista la secuencia de nucleótidos
Guarde en disco una copia de la entrada: Arriba a la derecha (Send –> Complete record –> File –> Format GenBank –> Create File) y elija una carpeta para guardarla.

¿Cuando se registró esta entrada?
¿Qué longitud tiene la secuencia?
¿Y el gen tat?
¿Y su región codificante?
¿Cómo se agrupan los nucleótidos en esta entrada?

B

Vuelva al principio de la entrada y pinche en ‘FASTA’.

¿Qué diferencias observamos con respecto a la entrada de GenBank?
¿Por qué la primera línea comienza con >?

C

Pinche ahora en ‘Graphics’ y explore la secuencia con ayuda del navegador gráfico
Haga zoom hasta el nivel de secuencia mediante el boton ‘ATG’, muévase con las flechas a derecha e izquierda y examine los codones de inicio y de stop de cada gen
Utilice el botón ‘Link to this page’ (arriba a la derecha) para obtener un enlace a esa página (Tiny URL)

¿Qué codones de inicio y final observamos en los genes del HIV?

D

Usando el número de registro U38293, busque ahora esta secuencia en la base de datos de nucleótidos del EMBL
Pinche en el enlace correspondiente en el apartado ‘Nucleotide sequences’
Pinche en View -> EMBL (arriba a la derecha) y examine la entrada en formato EMBL.

¿Qué diferencias encuentra con respecto al formato GenBank?