Gene Moth_1734 details

Gene Information Plasmid Coverage information Fosmid Coverage information Sequence

Gene Information

Locus tag	Moth_1734
Symbol	thiH
ID	3833034
Type	CDS
Is gene spliced	No
Is pseudo gene	No
Organism name	Moorella thermoacetica ATCC 39073
Kingdom	Bacteria
Replicon accession	NC_007644
Strand	-
Start bp	1784737
End bp	1786140
Gene Length	1404 bp
Protein Length	467 aa
Translation table	11
GC content	61%
IMG OID	637829658
Product	thiamine biosynthesis protein ThiH
Protein accession	YP_430578
Protein GI	83590569
COG category	[H] Coenzyme transport and metabolism [R] General function prediction only
COG ID	[COG1060] Thiamine biosynthesis enzyme ThiH and related uncharacterized enzymes
TIGRFAM ID	[TIGR02351] thiazole biosynthesis protein ThiH

Plasmid Coverage information

Num covering plasmid clones	23
Plasmid unclonability p-value	0.908145
Plasmid hitchhiking	No
Plasmid clonability	normal

Fosmid Coverage information

Num covering fosmid clones	17
Fosmid unclonability p-value	0.683505
Fosmid Hitchhiker	No
Fosmid clonability	normal

Sequence

Gene sequence

ATGCAACACG GTTATCGCGC CGATTTTATC AATCATGAAG AGATAGAAGG CTACCTGGAA 
GAAGCTAAAC GGGCAACGAG GGATGTGGCT GTCAGGATTA TCGAAAAGGC GCGGGAAGCG 
AAGGGGCTGG AGCCCTACGA GGTGGCGGTT TTGCTCCAGA ACGACGATGC GGACGTACGC 
CGGCGGATGT TTACCGCCGC CCGGGAGATA AAGGAAAAGA TCTACGGCCA GCGGATAGTT 
CTTTTTGCAC CTCTGTACTT CAGCGACTAC TGCATTAACA ACTGCCGCTA CTGCGGCTAC 
CGGCGGGAAA ATAAGTTCGA ACGCCGCCGC CTGGAGCCGG AGGAACTGGA ACGGGAGGTG 
CGCATCCTGG AATCCCTGGG GCATAAGCGC CTGGCCCTGG AGGCCGGGGA GGATCCCGTC 
CATTGTCCCC TTGAATATAC CCTGGATGTT ATTAACCGCA TTTACCGCAT CACCGAAGCC 
AACGGCAGCA TCCGGCGGGT AAACGTCAAC ATCGCGGCGA CGACGGTGGA TGCCTACAGG 
CAGTTAAAGG CCGCCGGCAT CGGCACCTAC GTCCTCTTCC AGGAGACCTA CCACCGGCCT 
ACTTATGCCT ACATGCACCC CGGCGGCCCC AAGGCGGACT ACGACTGGCA CACCACGGCC 
ATGGACCGGG CCATGGAGGG CGGCATCGAC GACGTCGGCC TGGGGGTCCT CTTCGGCCTC 
TACGATTATA AATTCGAAGT CATGGGCCTG CTCTACCATG CCCGGCACTT GGAGGAGACC 
TTCGGCGTCG GCCCCCATAC CATCTCCGTA CCGCGCCTGC GGCCGGCCTA CAACATTACC 
CTGGAAAAAT TCCCTTACCT GGTTGACGAC GAAGATTTTA AGAAACTGGT GGCCATCATC 
CGCCTGGCCG TGCCCTATAC CGGCATGATC ATCTCCACCC GGGAGACGGC GGAGCTCAGG 
GCGGAACTCC TGGAGTTGGG CGTTTCCCAG ATCAGCGCCG GCTCCTGTAC GGGGGTAGGG 
GGCTATGGCC GTCACTATGC CGATCAGGAA GACGATATCC CCCAGTTTGA AATCGGCGAC 
CACCGCCACC CCGATGAGGT TATCGGCGAC CTCTGCCGGC GGGGGTATCT CCCCAGCTAC 
TGCACAGCCT GCTACCGCCG CGGCCGCACC GGCGACCGCT TCATGTCCCT GGCCAAAACC 
GGGGAGATCC AGCACTGCTG CCAGCCTAAC GCCATCCTCA CCTTTAAGGA ATACTTGCTG 
GATTATGCCC GCCCGGCTAC CAGGGAAGTA GGAGAGACAA CCATCAGGGA GCACCTGGCC 
CGGATCCCCA GCCCGGCCAT CCGGGCCGAA ACGGAACGCC GCCTGGAGCG CATCGCCGCC 
GGCGAGCGGG ATTTGTATTT CTAG

Protein sequence

MQHGYRADFI NHEEIEGYLE EAKRATRDVA VRIIEKAREA KGLEPYEVAV LLQNDDADVR 
RRMFTAAREI KEKIYGQRIV LFAPLYFSDY CINNCRYCGY RRENKFERRR LEPEELEREV 
RILESLGHKR LALEAGEDPV HCPLEYTLDV INRIYRITEA NGSIRRVNVN IAATTVDAYR 
QLKAAGIGTY VLFQETYHRP TYAYMHPGGP KADYDWHTTA MDRAMEGGID DVGLGVLFGL 
YDYKFEVMGL LYHARHLEET FGVGPHTISV PRLRPAYNIT LEKFPYLVDD EDFKKLVAII 
RLAVPYTGMI ISTRETAELR AELLELGVSQ ISAGSCTGVG GYGRHYADQE DDIPQFEIGD 
HRHPDEVIGD LCRRGYLPSY CTACYRRGRT GDRFMSLAKT GEIQHCCQPN AILTFKEYLL 
DYARPATREV GETTIREHLA RIPSPAIRAE TERRLERIAA GERDLYF