Protocolo para
- obtener una secuencia genómica
- copiarla a un servidor Linux
Obtener la secuencia
- abrir el navegador genómico de UCSC
- elegir la especie (C. elegans), versión del ensamblado y coordenadas
- pinchar en ‘View’ –> ‘DNA’
- en la pagina que se abre –> pinchar ‘get DNA’
- copiar la URL de la pagina de salida
Copiarla al servidor
Usar el navegador ‘en linea de comando w3m
Dentro del servidor al que queremos copiar la secuencia tecleamos/(pegamos la URL copiada). ¡Tenemos que encomillar la URL!
w3m -dump 'URL' > outfile.fa
Esta secuencia de salida contiene una línea en blanco al inicio y al final.
Para eliminar líneas en blanco podemos usar la herramienta grep
w3m -dump 'URL' | grep -P '[a-zA-Z]' > outfileFixed.fa o en dos pasos grep -P '[a-zA-Z]' outfile.fa > outfileFixed.fa
grep busca líneas que cumplen la expresión regular que damos mediante el parámetro -P