Obtener una secuencia genómica

Protocolo para

  1. obtener una secuencia genómica
  2. copiarla a un servidor Linux

 

Obtener la secuencia

  1. abrir el navegador genómico de UCSC
  2. elegir la especie (C. elegans), versión del ensamblado y coordenadas
  3. pinchar en ‘View’ –> ‘DNA’
  4. en la pagina que se abre –> pinchar ‘get DNA’
  5. copiar la URL de la pagina de salida

Copiarla al servidor

Usar el navegador ‘en linea de comando w3m

Dentro del servidor al que queremos copiar la secuencia tecleamos/(pegamos la URL copiada). ¡Tenemos que encomillar la URL!

w3m -dump  'URL' > outfile.fa

Esta secuencia de salida contiene una línea en blanco al inicio y al final.

Para eliminar líneas en blanco podemos usar la herramienta grep

w3m -dump  'URL' | grep -P '[a-zA-Z]' > outfileFixed.fa

o en dos pasos
grep -P '[a-zA-Z]' outfile.fa > outfileFixed.fa

grep busca líneas que cumplen la expresión regular que damos mediante el parámetro -P

Mas sobre expresiones regulares

http://jkorpela.fi/perl/regexp.html