En esta sesión vamos a analizar el contenido en DNA repetitivo. En concreto, queremos determinar:

1)      El % del genoma que corresponde a DNA repetitivo

2)      La composición del repetido, considerando las siguientes clases: i) transposones de DNA, ii) retrotransposones, iii) repetido simple

3)      La distribución del repetido: queremos saber dónde el DNA repetido es más frecuente: en los promotores, en los exones, en los intrones o en el espacio intergénico.

 

Pasos

1)      Obtener los datos de la tabla ‘RepeatMasker’ (dentro del grupo ‘Repeats’) correspondientes a la especie. Como formato de salida excogemos ‘selected fields from primary and related tables’. Seleccionaremos: ‘milliDiv’, ‘genoName’, ‘genoStart’, ‘genoEnd’,  ‘strand’, ’repName’, ’repClass’, ’repFamily’

2)      Vamos a determinar la composición de la secuencia cromosómica en DNA repetitivo. Para ello, vamos a agrupar la columna ‘repClass’ calculando la longitud total de cada grupo (Join, Subtract and Group , Group). Los grupos que obtenenmos vamos a agrupar otra vez: i) LINE, SINE, LTR son los retrotransposones, ii) DNA los transposones de DNA, y iii) ‘Low_complexity’ y ‘Simple_repeat’ el repetido simple.

3)      Para determinar la longitud total del DNA repetitivo haremos primero un merge. Despues calcularemos la  longitud y la estatistica báscia de la longitud.