Gene EcSMS35_4455 details

Gene Information Plasmid Coverage information Fosmid Coverage information Sequence

Gene Information

Locus tag	EcSMS35_4455
Symbol	purH
ID	6143023
Type	CDS
Is gene spliced	No
Is pseudo gene	No
Organism name	Escherichia coli SMS-3-5
Kingdom	Bacteria
Replicon accession	NC_010498
Strand	-
Start bp	4550447
End bp	4552036
Gene Length	1590 bp
Protein Length	529 aa
Translation table	11
GC content	56%
IMG OID	641619275
Product	bifunctional phosphoribosylaminoimidazolecarboxamide formyltransferase/IMP cyclohydrolase
Protein accession	YP_001746391
Protein GI	170680627
COG category	[F] Nucleotide transport and metabolism
COG ID	[COG0138] AICAR transformylase/IMP cyclohydrolase PurH (only IMP cyclohydrolase domain in Aful)
TIGRFAM ID	[TIGR00355] phosphoribosylaminoimidazolecarboxamide formyltransferase/IMP cyclohydrolase

Plasmid Coverage information

Num covering plasmid clones	4
Plasmid unclonability p-value	0.00025024
Plasmid hitchhiking	No
Plasmid clonability	decreased coverage

Fosmid Coverage information

Num covering fosmid clones	28
Fosmid unclonability p-value	0.000830583
Fosmid Hitchhiker	Yes
Fosmid clonability	hitchhiker

Sequence

Gene sequence

ATGCAACAAC GTCGTCCAGT CCGCCGCGCT CTGCTCAGTG TTTCTGACAA AGCCGGTATC 
GTCGAATTCG CCCAGGCACT TTCCGCACGC GGTGTGGAGC TGCTGTCTAC AGGGGGCACT 
GCCCGTCTGT TAGCAGAAAA AGGTCTGCCG GTAACCGAAG TTTCCGATTA CACCGGTTTC 
CCGGAGATGA TGGATGGACG CGTGAAGACC CTGCATCCGA AAGTACATGG TGGCATTCTG 
GGCCGTCGCG GCCAGGACGA TACCATTATG GAAGAACATC AGATCCAGCC TATCGATATG 
GTGGTTGTTA ACCTGTATCC GTTCGCCCAG ACCGTTGCTC GTGAAGGCTG CTCGCTGGAA 
GATGCGGTTG AGAACATCGA TATCGGCGGC CCGACGATGG TGCGCTCTGC CGCCAAGAAC 
CATAAAGATG TCGCCATCGT GGTGAAGAGC AGCGACTACG ACGCCATTAT TAAAGAGATA 
GATGCCAATG AAGGCTCCCT GACTCTGGAA ACTCGCTTTG ACCTTGCCAT CAAAGCCTTC 
GAACACACCG CCGCCTACGA CAGCATGATT GCCAACTACT TCGGCAGCAT GGTTCCGGCT 
TACCACGGTG AAAGCAAAGA AGCCGCCGGT CGCTTCCCAC GCACGCTGAA CCTGAACTTC 
ATTAAGAAGC AGGATATGCG TTACGGCGAG AACAGCCACC AGCAGGCTGC CTTCTATATA 
GAAGAGAATG TCAAAGAAGC CTCCGTTGCT ACCGCAACCC AGGTTCAGGG TAAAGCCCTC 
TCTTATAACA ACATCGCCGA TACCGATGCG GCGCTGGAGT GCGTGAAAGA GTTCGCCGAG 
CCGGCATGTG TGATTGTGAA GCACGCCAAC CCTTGCGGCG TGGCTATCGG CAATTCCATT 
CTTGATGCTT ACGATCGCGC GTACAAAACC GACCCGACCT CCGCATTCGG CGGCATTATC 
GCCTTTAACC GCGAGCTGGA TGCGGAAACC GCGCAGGCCA TCATTTCTCG TCAGTTTGTT 
GAAGTGATTA TTGCGCCGTC CGCCAGCGAA GAAGCCCTGA AAATCACCGC CGCCAAACAG 
AACGTACGCG TCCTGACCTG CGGTCAGTGG GGCGAGCGTG TTCCGGGTCT TGATTTCAAA 
CGCGTGAACG GCGGTCTGCT GGTTCAGGAT CGAGACCTGG GGATGGTCGG TGCAGAAGAA 
CTGCGCGTCG TCACCAAACG TCAGCCGAGC GAACAGGAAC TGCGTGATGC GCTGTTCTGC 
TGGAAAGTGG CGAAGTTCGT GAAATCCAAT GCTATCGTCT ATGCCAAAAA CAATATGACC 
ATCGGTATTG GCGCAGGCCA GATGAGCCGT GTGTACTCCG CGAAAATCGC CGGTATTAAA 
GCGGCCGATG AAGGCCTGGA AGTGAAAGGT TCCTCGATGG CTTCTGACGC ATTCTTCCCG 
TTCCGCGACG GTATTGATGC CGCCGCCGCT GCGGGTGTGA CCTGTGTAAT CCAGCCTGGC 
GGTTCTATCC GTGATGACGA AGTAATTGCC GCCGCCGACG AGCACGGTAT TGCAATGCTC 
TTCACCGACA TGCGCCACTT CCGCCATTAA

Protein sequence

MQQRRPVRRA LLSVSDKAGI VEFAQALSAR GVELLSTGGT ARLLAEKGLP VTEVSDYTGF 
PEMMDGRVKT LHPKVHGGIL GRRGQDDTIM EEHQIQPIDM VVVNLYPFAQ TVAREGCSLE 
DAVENIDIGG PTMVRSAAKN HKDVAIVVKS SDYDAIIKEI DANEGSLTLE TRFDLAIKAF 
EHTAAYDSMI ANYFGSMVPA YHGESKEAAG RFPRTLNLNF IKKQDMRYGE NSHQQAAFYI 
EENVKEASVA TATQVQGKAL SYNNIADTDA ALECVKEFAE PACVIVKHAN PCGVAIGNSI 
LDAYDRAYKT DPTSAFGGII AFNRELDAET AQAIISRQFV EVIIAPSASE EALKITAAKQ 
NVRVLTCGQW GERVPGLDFK RVNGGLLVQD RDLGMVGAEE LRVVTKRQPS EQELRDALFC 
WKVAKFVKSN AIVYAKNNMT IGIGAGQMSR VYSAKIAGIK AADEGLEVKG SSMASDAFFP 
FRDGIDAAAA AGVTCVIQPG GSIRDDEVIA AADEHGIAML FTDMRHFRH