Gene Moth_2022 details

Gene Information Plasmid Coverage information Fosmid Coverage information Sequence

Gene Information

Locus tag	Moth_2022
Symbol
ID	3831397
Type	CDS
Is gene spliced	No
Is pseudo gene	No
Organism name	Moorella thermoacetica ATCC 39073
Kingdom	Bacteria
Replicon accession	NC_007644
Strand	-
Start bp	2109667
End bp	2110812
Gene Length	1146 bp
Protein Length	381 aa
Translation table	11
GC content	44%
IMG OID	637829951
Product	periplasmic binding protein/LacI transcriptional regulator
Protein accession	YP_430861
Protein GI	83590852
COG category	[G] Carbohydrate transport and metabolism
COG ID	[COG4213] ABC-type xylose transport system, periplasmic component
TIGRFAM ID	[TIGR02634] D-xylose ABC transporter, substrate-binding protein

Plasmid Coverage information

Num covering plasmid clones	38
Plasmid unclonability p-value	1
Plasmid hitchhiking	No
Plasmid clonability	normal

Fosmid Coverage information

Num covering fosmid clones	30
Fosmid unclonability p-value	1
Fosmid Hitchhiker	No
Fosmid clonability	normal

Sequence

Gene sequence

GTGCTAAAAA AGAAGGCTAC CAGGATAATT GCCTTGGCTG CAGTTTTAAT CCTGCTGGCT 
ATGACCCTTA TAGGTTGCGG TCAAGGCGGA AATTCGAGCA AAAATGGAGG TAATCAGGGC 
GCTTCGGCTA AAAATGGCGA TAAGATAAAG ATAGGTCTCT CAATGGATGA TTTACGCCAG 
GAACGCTGGC AGCATGATAG AGACTTGTTT GTTGCTAAGG CCAAAGAACT CGGAGCTGAA 
GTACTGGTAC AATCAGCAAA CGGTGATGAT GCTACCCAGC TTTCCCAGGC TGAGAACCTC 
ATTTCCCAGG GTATTAATGT CTTGGTTGTA ATACCCCATA ATGGAGACGC CATGGCCCCT 
ATTGTCGAAG CAGCGCATAA AGCCGGGGTA AAAGTGCTGG CATATGATCG TTTAATAAGA 
AATGCAGATG TAGATCTCTA TATTTCCTTT GATAATGTCC GCGTTGGTGA ATTGCAGGCA 
GAGTACCTGA CCAAAAAGGT TCCTAAAGGT AAATATTTCC TTATGGGTGG ATCGCCTACA 
GACAACAATG CAAAATTATT TAGACAGGGA CAGATGAATG TTCTTAAACC ACTTATTGAT 
AAGGGAGACA TTAAGGTTGT TGGCGATCAG TGGGTTAAAG ATTGGCTGCC GGAAGAGGCC 
ATGAAGATTA TGGAAAATGC CCTGACTAGC AATAATAACC AGATTGATGC TGTAGTCGCA 
TCTAATGACA GTACTGCTGG GGGAGCTATT CAAGCTTTAG CTGCCCAGAA TCTAGCTGGT 
AAAGTGGCTA TTTCTGGCCA GGACGCAGAT CTTGCTGCCT GCCAGCGTAT TGTTGAAGGA 
ACTCAATCTA TGACTGTTTA TAAACCTATT ACGACTCTGG CTACCCGGGC GGCGGAGGTT 
GCGGTGGCGC TGGCCAAGGG TGAAAATATT GGGGCTAATA ATAAAGTAAA TAACGGGAAA 
ATAGATGTAC CCTCAGTGTT ACTGACACCC ATTATGGTGG ATAAAGATAA TATGGTCCAG 
ACGGTAATTA AAGATGGTTT CCATAAACTT GAAATAAAAA CGTCCCCAAA GAAAAGTGGC 
CTAAGCAATA GGCAATCAAT TAATTCAATT AGGCAAGAGG CCACCGTATG GCCTCTTGCC 
TGTTAA

Protein sequence

MLKKKATRII ALAAVLILLA MTLIGCGQGG NSSKNGGNQG ASAKNGDKIK IGLSMDDLRQ 
ERWQHDRDLF VAKAKELGAE VLVQSANGDD ATQLSQAENL ISQGINVLVV IPHNGDAMAP 
IVEAAHKAGV KVLAYDRLIR NADVDLYISF DNVRVGELQA EYLTKKVPKG KYFLMGGSPT 
DNNAKLFRQG QMNVLKPLID KGDIKVVGDQ WVKDWLPEEA MKIMENALTS NNNQIDAVVA 
SNDSTAGGAI QALAAQNLAG KVAISGQDAD LAACQRIVEG TQSMTVYKPI TTLATRAAEV 
AVALAKGENI GANNKVNNGK IDVPSVLLTP IMVDKDNMVQ TVIKDGFHKL EIKTSPKKSG 
LSNRQSINSI RQEATVWPLA C