Gene EcSMS35_3333 details

Gene Information Plasmid Coverage information Fosmid Coverage information Sequence

Gene Information

Locus tag	EcSMS35_3333
Symbol
ID	6145661
Type	CDS
Is gene spliced	No
Is pseudo gene	No
Organism name	Escherichia coli SMS-3-5
Kingdom	Bacteria
Replicon accession	NC_010498
Strand	+
Start bp	3410588
End bp	3412384
Gene Length	1797 bp
Protein Length	598 aa
Translation table	11
GC content	49%
IMG OID	641618162
Product	arylsulfate sulfotransferase
Protein accession	YP_001745312
Protein GI	170680035
COG category
COG ID
TIGRFAM ID

Plasmid Coverage information

Num covering plasmid clones	27
Plasmid unclonability p-value	1
Plasmid hitchhiking	No
Plasmid clonability	normal

Fosmid Coverage information

Num covering fosmid clones	53
Fosmid unclonability p-value	1
Fosmid Hitchhiker	No
Fosmid clonability	normal

Sequence

Gene sequence

ATGTTTGATA AATATAGAAA AACACTCGTA GCCGGAACTG TGGCGATAAC CCTGGGTTTG 
TCAGCATCGG GGGTGATGGC TGCGGGTTTT AAACCAGCGC CGCCTGCCGG GCAACTGGGT 
GCGGTCATTG TCGATCCCTA CGGCAATGCA CCACTGACCG CTTTGGTTGA CTTAGATAGC 
CATGTTATTT CTGACGTCAG AGTTACCGTC CATGGGAAGG GCGAAAAAGG CGTAGAAATC 
AGCTATCCCG TGGGTCAGGA ATCACTAAAA ACTTACGATG GTGTACCGAT TTTTGGTCTT 
TATCAGAAAT TTGCTAACAA AGTGACCGTT GAGTGGAAAG AAAACGGCAA GGTCATGAAA 
GATGATTATG TGGTGCACAC TTCGGCCATC GTCAATAATT ACATGGATAA CCGCTCTATC 
TCCGATTTAC AACAGACCAA AGTTATTAAA GTCGCACCGG GTTTTGAAGA TCGCCTCTAT 
CTGGTTAATA CCCACACCTT TACCGCCCAA GGTTCCGATC TCCACTGGCA TGGTGAGAAA 
GATAAAAATG CCGGTATCCT TGATGCGGGT CCGGCAACTG GCGCACTCCC TTTTGATATC 
GCGCCATTCA CCTTTATCGT CGATACGGAA GGCGAATACC GCTGGTGGTT GGATCAAAAC 
ACCTTCTACG ATGGTCGTGA CCGCAACATT AACAAACGTG GTTATCTGAT GGGTATCCGC 
GAAACGCCAC GCGGCACCTT TACCGCTGTA CAAGGTCAGC ACTGGTACGA GTTCGACATG 
ATGGGGCAGG TGCTCGAAGA TCACAAACTA CCGCGCGGAT TTGCTGACGC TACTCATGAA 
TCCATTGAGA CGCCAAATGG CACGGTACTG TTGCGCGTAG GTAAGAGTAA CTATCGTCGC 
GATGACGGCG TACACGTCAC CACCATTCGT GACCATATCC TCGAAGTCGA TAAATCTGGT 
CGCGTTGTAG ATGTATGGGA TCTGACGAAG ATCCTCGATC CGAAACGCGA TGCACTGCTC 
GGCGCGCTGG ATGCAGGTGC AGTTTGCGTT AACGTTGACC TTGCCCATGC AGGACAACAG 
GCAAAACTGG AACCAGATAC ACCGTTCGGC GACGCTCTGG GTGTAGGGCC AGGCCGTAAC 
TGGGCGCACG TTAATTCCAT CGCTTATGAC GCAAAAGATG ACTCAATTAT TCTCTCTTCT 
CGTCACCAGG GTGTTGTGAA GATTGGTCGT GATAAGCAAG TGAAATGGAT CCTTGCACCC 
TCTAAAGGTT GGGAAAAACC GCTGGCCAGC AAGCTGCTGA AACCGGTTGA TGCTAACGGT 
AAGCCAATTA CCTGTAACGA AAATGGCCTG TGCGAAAACT CAGACTTCGA CTTTACCTAC 
ACCCAGCATA CCGCCTGGAT TTCCAGCAAA GGAACGCTCA CCATTTTTGA TAATGGCGAT 
GGTCGTCATC TGGAACAACC TGCCTTACCA ACCATGAAAT ATTCCCGCTT TGTGGAATAT 
AAGATTGATG AGAAGAAAGG CACCGTTCAG CAAGTGTGGG AATACGGTAA AGAACGTGGC 
TACGATTTCT ATAGCCCAAT CACCTCCATC ATTGAATATC AAGCCGACCG TAACACCATG 
TTTGGCTTCG GTGGTTCTAT TCATTTGTTC GATGTCGGGC AGCCAACCGT CGGTAAGTTG 
AACGAAATCG ATTACAAAAC CAAAGAAGTG AAAGTGGAAA TCGACGTGCT GTCAGATAAA 
CCCAATCAGA CTCACTATCG TGCATTGTTA GTCCGTCCAC AACAGATGTT CAAATAA

Protein sequence

MFDKYRKTLV AGTVAITLGL SASGVMAAGF KPAPPAGQLG AVIVDPYGNA PLTALVDLDS 
HVISDVRVTV HGKGEKGVEI SYPVGQESLK TYDGVPIFGL YQKFANKVTV EWKENGKVMK 
DDYVVHTSAI VNNYMDNRSI SDLQQTKVIK VAPGFEDRLY LVNTHTFTAQ GSDLHWHGEK 
DKNAGILDAG PATGALPFDI APFTFIVDTE GEYRWWLDQN TFYDGRDRNI NKRGYLMGIR 
ETPRGTFTAV QGQHWYEFDM MGQVLEDHKL PRGFADATHE SIETPNGTVL LRVGKSNYRR 
DDGVHVTTIR DHILEVDKSG RVVDVWDLTK ILDPKRDALL GALDAGAVCV NVDLAHAGQQ 
AKLEPDTPFG DALGVGPGRN WAHVNSIAYD AKDDSIILSS RHQGVVKIGR DKQVKWILAP 
SKGWEKPLAS KLLKPVDANG KPITCNENGL CENSDFDFTY TQHTAWISSK GTLTIFDNGD 
GRHLEQPALP TMKYSRFVEY KIDEKKGTVQ QVWEYGKERG YDFYSPITSI IEYQADRNTM 
FGFGGSIHLF DVGQPTVGKL NEIDYKTKEV KVEIDVLSDK PNQTHYRALL VRPQQMFK