Mar Ago 12, 2008 12:06 pm
|
 |
wampaier
Perlero Nuevo

|
Registrado: 12 Ago 2008
Mensajes: 8
|
|
| Archivo Genbank |
|
|
Hola, tengo un problema... con un archivo de Genbank... quiero extraer la parte donde dice /translation="(y viene la secuencia de la proteína)... quisiera saber cómo le podría hacer... para poder extraer ese fragmento. Gracias.
| Código: |
LOCUS ntkv01_1 5709761 bp DNA linear 22-JUL-2008
DEFINITION Klebsiella variicola strain CCG (AE) chromosome Chromosome.
ACCESSION
VERSION
KEYWORDS .
SOURCE Klebsiella variicola
ORGANISM Klebsiella variicola
Unclassified.
REFERENCE 1 (bases 1 to 5709761)
AUTHORS Davidsen,T.M., Beck,E., Galinsky,K.J. and Sutton,G.
TITLE Annotation Engine Genome
JOURNAL Unpublished
REFERENCE 2 (bases 1 to 5709761)
AUTHORS Davidsen,T.M., White,O. and Yang,Q.
TITLE Direct Submission
JOURNAL Submitted (22-JUL-2008) J. Craig Venter Institute, 9712 Medical
Center Dr, Rockville, MD 20850, USA
FEATURES Location/Qualifiers
source 1..5709761
/organism="Klebsiella variicola"
/mol_type="genomic DNA"
/strain="CCG (AE)"
/chromosome="Chromosome"
gene 52..456
/locus_tag="NT01KV0001"
CDS 52..456
/locus_tag="NT01KV0001"
/codon_start=1
/transl_table=11
/product="FipA"
/protein_id="tigr:NT01KV0001"
/translation="MKEHEMDGADYPLSLASDMVLPWPWSLQRFINNVSRIGSYKGKP
WKQDNSNHYVELWLPWRIGFVGGGNHSITAGILAGEGTLIPEHVYDMSWLFELVRTDG
NHWFVDDHKVEAVKSGRSAAVFEIGRLLVEGA"
gene complement(504..2357)
/locus_tag="NT01KV0002"
CDS complement(504..2357)
/locus_tag="NT01KV0002"
/note="identified by match to protein family HMM PF01526"
/codon_start=1
/transl_table=11
/product="transposase"
/protein_id="tigr:NT01KV0002"
/translation="MVEQYGRVKRFLPAMLRDLHFQSAPAGENTLSAIHYLAELSGSK
KRLLENAPEQIITGPWKRLVYDSEGRIQRAGYSLCLLERLQDSLRRRDIWLENSDRWG
DPRQKFLQGKEWQAQRIAVCRALGHPTDGGNAVKQLATELDETWKTVASRFELNAAVS
ICHQGKYPSLTISSLEKLEEPQPLILLNSRVRQLVPPVDLTELLLEIDARTGFTREFT
HVSESEARAQDLNISLCAVLLAEACNIGHEPLIKHSIPALTRHRLSWVKQNYIRAETL
VSANARLVDFQSTLELSERWGGGEVASADGMRFVTPVKTLNSGPNRKYFGSGRGITWY
NFVSDQYSGFHGIVIPGTLRDSIFVLEGLLEQQTGLNPVEIMTDTGGSSDIIFGLFWL
LGYQFSPRLADAGEAVFWRADKNANYGVLDELARGCVELSKIETQWDEMMRVSGSLKL
GTVHASELVGSLLKSSRPSGLAQAIMEVGRVNKTLYLLNYIDDEEYRRRILTQLNRGE
GRHAVARAICYGQRGEIRKRYREGQEDQLGALGLVTNAVVLWNTLYMQEALSHLRSAG
EIPEDEHISRLSPLMYGHINMLGHYTFTLPENILKGELRPLNFNSNNELLP"
gene complement(2441..4294)
/locus_tag="NT01KV0003"
CDS complement(2441..4294)
/locus_tag="NT01KV0003"
/note="identified by match to protein family HMM PF01526"
/codon_start=1
/transl_table=11
/product="transposase"
/protein_id="tigr:NT01KV0003"
/translation="MVEQYGRVRRFLPHLLNTVKFSSAPAGVTTLNACDYLSREFSSR
RQFFDDAPTEIISRSWKRLVINKEKHITRRGYTLCFLSKLQDSLRRRDVYVTGSNRWG
DPRARLLQGADWQANRIKVYRSLGHPTDPQEAIKSLGHQLDSRYRQVAARLGENEAVE
LDVSGPKPRLTISPLASLDEPDSLKRLSKMISDLLPPVDLTELLLEINAHTGFADEFF
HASEASARVDDLPVSISAVLMAEACNIGLEPLIRSNVPALTRHRLNWTKANYLRAETI
TSANARLVDFQATLPLAQIWGGGEVASADGMRFVTPVRTINAGPNRKYFGNNRGITWY
NFVSDQYSGFHGIVIPGTLRDSIFVLEGLLEQETGLNPTEIMTDTAGTSELVFGLFWL
LGYQFSPRLADAGASVFWRMGHDANYGVLNDIARGQSDPRKIVLQWDEMIRTAGSLKL
GKVQASVLVRSLLKSERPSGLTQAIIEVGRINKTLYLLNYIDDEDYRRRILTQLNRGE
SRHAVARAICHGQKGEIRKRYTDGQEDQLGALGLVTNAVVLWNTMYMQAALDHLRAQG
ETLNDEDIARLSPLCHGHINMLGHYSFTLAELVTKGHLRPLKEASEVENVA"
gene complement(4659..5663)
/locus_tag="NT01KV0004"
CDS complement(4659..5663)
/locus_tag="NT01KV0004"
/note="identified by match to protein family HMM PF02371"
/codon_start=1
/transl_table=11
/product="transposase for insertion sequence element"
/protein_id="tigr:NT01KV0004"
/translation="MENIALIGIDLGKNSFHIHCQDHRGKAVYRKKFTRPKLIEFLAT
CPATTIAMEACGGSHFMARKLAELGHFPKLISPQFVRPFVKSNKNDFVDAEAICEAAS
RPSMRFVQPRTESQQAMRALHRVRESLVQDKVKTTNQMHAFLLEFGISVPRGAAVISR
LSTLLEDSSLPLYLSQLLLKLQQHYHYLVEQIKDLESQLKRKLDEDEVGQRLLSIPCV
GTLTASTISTEIGDGKQYASSRDFAAATGLVPRQYSTGGRTTLLGISKRGNKKIRTLL
VQCARVFIQKLEHQSGKLADWVRELLCRKSNFVVTCALANKLARIAWALTARQQTYEA"
gene complement(5742..6554)
/locus_tag="NT01KV0005"
CDS complement(5742..6554)
/locus_tag="NT01KV0005"
/note="identified by match to protein family HMM PF01526"
/codon_start=1
/transl_table=11
/product="transposase"
/protein_id="tigr:NT01KV0005"
/translation="MPRRSILSAAERESLLALPDTKDELIRHYTFSESDLSIIRQRRG
PANRLGFAVQLCYLRFPGVILGADEPPFPPLLRLVANQLKVGIESWDEYGQREQTRRE
HLVELQTVFGFQPFTIGHYRQAVQLLTELAMQTDKGIVLARALIEHLRRQSVIVPALN
AVERASAEAITRAVFFNRLGEIRDRSFEQQRYRASGLNLVTAAIVLWNTVYLERAANA
LRGHGQAVDDGLLQYL |
|
|
|
|

Mar Ago 12, 2008 12:25 pm
|
 |
explorer
Moderador

|
Registrado: 24 Jul 2005
Mensajes: 4142
Ubicación: Valladolid, España
|
|
|
|
|
Bienvenido a los foros de Perl en Español, wampaier.
En estos foros hay un hilo con un tema parecido.
No extrae la parte de translation, sino la parte de la secuencia. |
|

Mar Ago 12, 2008 12:43 pm
|
 |
explorer
Moderador

|
Registrado: 24 Jul 2005
Mensajes: 4142
Ubicación: Valladolid, España
|
|
|
|
|
Aquí tienes un ejemplo sencillo que lo resuelve:
| Perl: | #!/usr/bin/perl
use strict;
use warnings;
use diagnostics;
## Abrimos el fichero y leemos todas las líneas GenBank
my $fichero_nombre = 'variicola.gen';
open FICHERO, "<$fichero_nombre" or die "ERROR: No encuentro $fichero_nombre: $!\n";
my $fichero;
while (my $linea = <FICHERO>) {
$fichero .= $linea;
}
close FICHERO;
## Extraemos las partes de translation
while ( $fichero =~ m/ \/translation= " (.*?) " /simogx ) {
my $translation = $ 1;
## Quitamos los espacios en blanco y retornos de carro
$translation =~ s/\ s//simog;
print "[$translation]\n";
} |
Ultima edición por explorer el Mar Ago 12, 2008 2:40 pm, editado 1 vez |
|
Mar Ago 12, 2008 2:08 pm
|
 |
wampaier
Perlero Nuevo

|
Registrado: 12 Ago 2008
Mensajes: 8
|
|
|
|
|
| ok... si... de hecho, como vi el ejemplo anterior... es por eso que me decidí preguntar... |
|
Mar Ago 12, 2008 2:14 pm
|
 |
wampaier
Perlero Nuevo

|
Registrado: 12 Ago 2008
Mensajes: 8
|
|
|
|
|
Pero si lo quisiera en tipo fasta... es que por ejemplo, esto es solo un ejemplo de un genoma completo... porque también lo que quiero extraer es el product y el protein_id por ejemplo:
| Código: |
>FipA|NT01KV0001
MKEHEMDGADYPLSLASDMVLPWPWSLQRFINNVSRIGSYKGKP
WKQDNSNHYVELWLPWRIGFVGGGNHSITAGILAGEGTLIPEHVY
DMSWLFELVRTDGNHWFVDDHKVEAVKSGRSAAVFEIGRLLVEGA |
|
|
Mar Ago 12, 2008 2:46 pm
|
 |
explorer
Moderador

|
Registrado: 24 Jul 2005
Mensajes: 4142
Ubicación: Valladolid, España
|
|
|
|
|
Según veo, si sustituyes /translation por /product y luego por /protein_id en el programa que te he dado, sí que salen...
Otra cosa es el formato fasta... no indicaste en la pregunta en qué formato querías la salida.
Quizás debas plantear tu problema desde cero, otra vez, para saber qué es lo que quieres hacer. |
|
Mar Ago 12, 2008 9:13 pm
|
 |
wampaier
Perlero Nuevo

|
Registrado: 12 Ago 2008
Mensajes: 8
|
|
|
|
|
| No, no, mira... tal vez no me expliqué muy bien... así como me lo explicaste lo de la secuencia de proteína.... está bien... solo que me interesa también extraer el product y el protein_id. Lo del formato fasta... eso no lo tomes en cuenta... disculpa si te enredé las cosas... |
|
Mie Ago 13, 2008 3:57 am
|
 |
explorer
Moderador

|
Registrado: 24 Jul 2005
Mensajes: 4142
Ubicación: Valladolid, España
|
|
|
|
|
| ¿Y la salida, tiene que ser de alguna forma? ¿o sin más, salir los datos a medida de que se encuentran? |
|
Powered by phpBB © 2001, 2005 phpBB Group
|