Perl en Español

  1. Home
  2. Tutoriales
  3. Foro
  4. Artículos
  5. Donativos
  6. Publicidad
 

Archivo Genbank

 
Publicar nuevo tema   Responder al tema    Foros de discusión -> Básico
Mensaje Mar Ago 12, 2008 12:06 pm
wampaier
Perlero Nuevo
Perlero Nuevo
Registrado: 12 Ago 2008
Mensajes: 8
Archivo Genbank Responder citando

Hola, tengo un problema... con un archivo de Genbank... quiero extraer la parte donde dice /translation="(y viene la secuencia de la proteína)... quisiera saber cómo le podría hacer... para poder extraer ese fragmento. Gracias.

Código:
LOCUS       ntkv01_1             5709761 bp    DNA     linear       22-JUL-2008
DEFINITION  Klebsiella variicola strain CCG (AE) chromosome Chromosome.
ACCESSION   
VERSION
KEYWORDS    .
SOURCE      Klebsiella variicola
  ORGANISM  Klebsiella variicola
            Unclassified.
REFERENCE   1  (bases 1 to 5709761)
  AUTHORS   Davidsen,T.M., Beck,E., Galinsky,K.J. and Sutton,G.
  TITLE     Annotation Engine Genome
  JOURNAL   Unpublished
REFERENCE   2  (bases 1 to 5709761)
  AUTHORS   Davidsen,T.M., White,O. and Yang,Q.
  TITLE     Direct Submission
  JOURNAL   Submitted (22-JUL-2008) J. Craig Venter Institute, 9712 Medical
            Center Dr, Rockville, MD 20850, USA
FEATURES             Location/Qualifiers
     source          1..5709761
                     /organism="Klebsiella variicola"
                     /mol_type="genomic DNA"
                     /strain="CCG (AE)"
                     /chromosome="Chromosome"
     gene            52..456
                     /locus_tag="NT01KV0001"
     CDS             52..456
                     /locus_tag="NT01KV0001"
                     /codon_start=1
                     /transl_table=11
                     /product="FipA"
                     /protein_id="tigr:NT01KV0001"
                     /translation="MKEHEMDGADYPLSLASDMVLPWPWSLQRFINNVSRIGSYKGKP
                     WKQDNSNHYVELWLPWRIGFVGGGNHSITAGILAGEGTLIPEHVYDMSWLFELVRTDG
                     NHWFVDDHKVEAVKSGRSAAVFEIGRLLVEGA"
     gene            complement(504..2357)
                     /locus_tag="NT01KV0002"
     CDS             complement(504..2357)
                     /locus_tag="NT01KV0002"
                     /note="identified by match to protein family HMM PF01526"
                     /codon_start=1
                     /transl_table=11
                     /product="transposase"
                     /protein_id="tigr:NT01KV0002"
                     /translation="MVEQYGRVKRFLPAMLRDLHFQSAPAGENTLSAIHYLAELSGSK
                     KRLLENAPEQIITGPWKRLVYDSEGRIQRAGYSLCLLERLQDSLRRRDIWLENSDRWG
                     DPRQKFLQGKEWQAQRIAVCRALGHPTDGGNAVKQLATELDETWKTVASRFELNAAVS
                     ICHQGKYPSLTISSLEKLEEPQPLILLNSRVRQLVPPVDLTELLLEIDARTGFTREFT
                     HVSESEARAQDLNISLCAVLLAEACNIGHEPLIKHSIPALTRHRLSWVKQNYIRAETL
                     VSANARLVDFQSTLELSERWGGGEVASADGMRFVTPVKTLNSGPNRKYFGSGRGITWY
                     NFVSDQYSGFHGIVIPGTLRDSIFVLEGLLEQQTGLNPVEIMTDTGGSSDIIFGLFWL
                     LGYQFSPRLADAGEAVFWRADKNANYGVLDELARGCVELSKIETQWDEMMRVSGSLKL
                     GTVHASELVGSLLKSSRPSGLAQAIMEVGRVNKTLYLLNYIDDEEYRRRILTQLNRGE
                     GRHAVARAICYGQRGEIRKRYREGQEDQLGALGLVTNAVVLWNTLYMQEALSHLRSAG
                     EIPEDEHISRLSPLMYGHINMLGHYTFTLPENILKGELRPLNFNSNNELLP"
     gene            complement(2441..4294)
                     /locus_tag="NT01KV0003"
     CDS             complement(2441..4294)
                     /locus_tag="NT01KV0003"
                     /note="identified by match to protein family HMM PF01526"
                     /codon_start=1
                     /transl_table=11
                     /product="transposase"
                     /protein_id="tigr:NT01KV0003"
                     /translation="MVEQYGRVRRFLPHLLNTVKFSSAPAGVTTLNACDYLSREFSSR
                     RQFFDDAPTEIISRSWKRLVINKEKHITRRGYTLCFLSKLQDSLRRRDVYVTGSNRWG
                     DPRARLLQGADWQANRIKVYRSLGHPTDPQEAIKSLGHQLDSRYRQVAARLGENEAVE
                     LDVSGPKPRLTISPLASLDEPDSLKRLSKMISDLLPPVDLTELLLEINAHTGFADEFF
                     HASEASARVDDLPVSISAVLMAEACNIGLEPLIRSNVPALTRHRLNWTKANYLRAETI
                     TSANARLVDFQATLPLAQIWGGGEVASADGMRFVTPVRTINAGPNRKYFGNNRGITWY
                     NFVSDQYSGFHGIVIPGTLRDSIFVLEGLLEQETGLNPTEIMTDTAGTSELVFGLFWL
                     LGYQFSPRLADAGASVFWRMGHDANYGVLNDIARGQSDPRKIVLQWDEMIRTAGSLKL
                     GKVQASVLVRSLLKSERPSGLTQAIIEVGRINKTLYLLNYIDDEDYRRRILTQLNRGE
                     SRHAVARAICHGQKGEIRKRYTDGQEDQLGALGLVTNAVVLWNTMYMQAALDHLRAQG
                     ETLNDEDIARLSPLCHGHINMLGHYSFTLAELVTKGHLRPLKEASEVENVA"
     gene            complement(4659..5663)
                     /locus_tag="NT01KV0004"
     CDS             complement(4659..5663)
                     /locus_tag="NT01KV0004"
                     /note="identified by match to protein family HMM PF02371"
                     /codon_start=1
                     /transl_table=11
                     /product="transposase for insertion sequence element"
                     /protein_id="tigr:NT01KV0004"
                     /translation="MENIALIGIDLGKNSFHIHCQDHRGKAVYRKKFTRPKLIEFLAT
                     CPATTIAMEACGGSHFMARKLAELGHFPKLISPQFVRPFVKSNKNDFVDAEAICEAAS
                     RPSMRFVQPRTESQQAMRALHRVRESLVQDKVKTTNQMHAFLLEFGISVPRGAAVISR
                     LSTLLEDSSLPLYLSQLLLKLQQHYHYLVEQIKDLESQLKRKLDEDEVGQRLLSIPCV
                     GTLTASTISTEIGDGKQYASSRDFAAATGLVPRQYSTGGRTTLLGISKRGNKKIRTLL
                     VQCARVFIQKLEHQSGKLADWVRELLCRKSNFVVTCALANKLARIAWALTARQQTYEA"
     gene            complement(5742..6554)
                     /locus_tag="NT01KV0005"
     CDS             complement(5742..6554)
                     /locus_tag="NT01KV0005"
                     /note="identified by match to protein family HMM PF01526"
                     /codon_start=1
                     /transl_table=11
                     /product="transposase"
                     /protein_id="tigr:NT01KV0005"
                     /translation="MPRRSILSAAERESLLALPDTKDELIRHYTFSESDLSIIRQRRG
                     PANRLGFAVQLCYLRFPGVILGADEPPFPPLLRLVANQLKVGIESWDEYGQREQTRRE
                     HLVELQTVFGFQPFTIGHYRQAVQLLTELAMQTDKGIVLARALIEHLRRQSVIVPALN
                     AVERASAEAITRAVFFNRLGEIRDRSFEQQRYRASGLNLVTAAIVLWNTVYLERAANA
                     LRGHGQAVDDGLLQYL
Mensaje Mar Ago 12, 2008 12:25 pm
explorer
Moderador
Moderador
Registrado: 24 Jul 2005
Mensajes: 4142
Ubicación: Valladolid, España
Responder citando

Bienvenido a los foros de Perl en Español, wampaier.

En estos foros hay un hilo con un tema parecido.

No extrae la parte de translation, sino la parte de la secuencia.
Mensaje Mar Ago 12, 2008 12:43 pm
explorer
Moderador
Moderador
Registrado: 24 Jul 2005
Mensajes: 4142
Ubicación: Valladolid, España
Responder citando

Aquí tienes un ejemplo sencillo que lo resuelve:
Perl:
#!/usr/bin/perl
use strict;
use warnings;
use diagnostics;

## Abrimos el fichero y leemos todas las líneas GenBank
my $fichero_nombre = 'variicola.gen';
open FICHERO, "<$fichero_nombre" or die "ERROR: No encuentro $fichero_nombre: $!\n";

my $fichero;
while (my $linea = <FICHERO>) {
    $fichero .= $linea;
}

close FICHERO;

## Extraemos las partes de translation
while ( $fichero =~ m/ \/translation=" (.*?) " /simogx ) {
    my $translation =                  $1;

    ## Quitamos los espacios en blanco y retornos de carro
    $translation =~ s/\s//simog;

    print "[$translation]\n";
}


Ultima edición por explorer el Mar Ago 12, 2008 2:40 pm, editado 1 vez
Mensaje Mar Ago 12, 2008 2:08 pm
wampaier
Perlero Nuevo
Perlero Nuevo
Registrado: 12 Ago 2008
Mensajes: 8
Responder citando

ok... si... de hecho, como vi el ejemplo anterior... es por eso que me decidí preguntar...
Mensaje Mar Ago 12, 2008 2:14 pm
wampaier
Perlero Nuevo
Perlero Nuevo
Registrado: 12 Ago 2008
Mensajes: 8
Responder citando

Pero si lo quisiera en tipo fasta... es que por ejemplo, esto es solo un ejemplo de un genoma completo... porque también lo que quiero extraer es el product y el protein_id por ejemplo:
Código:
>FipA|NT01KV0001
MKEHEMDGADYPLSLASDMVLPWPWSLQRFINNVSRIGSYKGKP
WKQDNSNHYVELWLPWRIGFVGGGNHSITAGILAGEGTLIPEHVY
DMSWLFELVRTDGNHWFVDDHKVEAVKSGRSAAVFEIGRLLVEGA
Mensaje Mar Ago 12, 2008 2:46 pm
explorer
Moderador
Moderador
Registrado: 24 Jul 2005
Mensajes: 4142
Ubicación: Valladolid, España
Responder citando

Según veo, si sustituyes /translation por /product y luego por /protein_id en el programa que te he dado, sí que salen...

Otra cosa es el formato fasta... no indicaste en la pregunta en qué formato querías la salida.

Quizás debas plantear tu problema desde cero, otra vez, para saber qué es lo que quieres hacer.
Mensaje Mar Ago 12, 2008 9:13 pm
wampaier
Perlero Nuevo
Perlero Nuevo
Registrado: 12 Ago 2008
Mensajes: 8
Responder citando

No, no, mira... tal vez no me expliqué muy bien... así como me lo explicaste lo de la secuencia de proteína.... está bien... solo que me interesa también extraer el product y el protein_id. Lo del formato fasta... eso no lo tomes en cuenta... disculpa si te enredé las cosas...
Mensaje Mie Ago 13, 2008 3:57 am
explorer
Moderador
Moderador
Registrado: 24 Jul 2005
Mensajes: 4142
Ubicación: Valladolid, España
Responder citando

¿Y la salida, tiene que ser de alguna forma? ¿o sin más, salir los datos a medida de que se encuentran?
Publicar nuevo tema   Responder al tema    Foros de discusión -> Básico Todas las horas son GMT - 6 Horas
Página 1 de 1



Powered by phpBB © 2001, 2005 phpBB Group