En esta sesión vamos a analizar el contenido en DNA repetitivo. En concreto, queremos determinar:
1) El % del genoma que corresponde a DNA repetitivo
2) La composición del repetido, considerando las siguientes clases: i) transposones de DNA, ii) retrotransposones, iii) repetido simple
3) La distribución del repetido: queremos saber dónde el DNA repetido es más frecuente: en los promotores, en los exones, en los intrones o en el espacio intergénico.
Pasos
1) Obtener los datos de la tabla ‘RepeatMasker’ (dentro del grupo ‘Repeats’) correspondientes a la especie. Como formato de salida excogemos ‘selected fields from primary and related tables’. Seleccionaremos: ‘milliDiv’, ‘genoName’, ‘genoStart’, ‘genoEnd’, ‘strand’, ’repName’, ’repClass’, ’repFamily’
2) Vamos a determinar la composición de la secuencia cromosómica en DNA repetitivo. Para ello, vamos a agrupar la columna ‘repClass’ calculando la longitud total de cada grupo (Join, Subtract and Group , Group). Los grupos que obtenenmos vamos a agrupar otra vez: i) LINE, SINE, LTR son los retrotransposones, ii) DNA los transposones de DNA, y iii) ‘Low_complexity’ y ‘Simple_repeat’ el repetido simple.
3) Para determinar la longitud total del DNA repetitivo haremos primero un merge. Despues calcularemos la longitud y la estatistica báscia de la longitud.