BH12.12/SPARQLthon10/NCBITaxonomyNameDuplicate

提供:TogoWiki

移動: 案内, 検索

NCBI Taxonomyには、別の系統であり、Tax IDが異なるのに、名前が同じ系統が多数存在する。 例: Bacteria(ナナフシの一属) Bacteria(真性細菌)

これは、系統名からTaxIDを取得する際に、間違ったTaxIDを取得してしまう原因となる。

そのような系統が、4月に取得したNCBI Taxonomyのデータ中には約830系統名存在した。 以下が、Prokaryoteに限定した場合に、望ましいTaxID。

Bacillus	1386
Bacteria	2
Bergeriella	334108
Bosea	85413
Buchnera	32199
Centipeda	82202
Coxiella	776
Diplosphaera	1148783
Edwardsiella	635
Eremococcus	171412
Hydrocoryne	1117097
Iphinoe	988814
Lamprocystis	53452
Lawsonia	41707
Leptonema	32205
Moraxella	475
Morganella	581
Paracoccus	265
Planococcus	1372
Proteus	583
Rhodobium	34016
Rothia	32207
Schwartzia 55506
Spirulina 1154
Tetracoccus	56056
Yersinia	629

どうしようもないやつ

Ponticoccus 519422 Actinobacteria; Actinobacteria; Actinobacteridae; Actinomycetales; Propionibacteriaceae
Ponticoccus 983507 Proteobacteria; Alphaproteobacteria; Rhodobacterales; Rhodobacteraceae

また、以下がProkaryoteの中で、異なる系統階層で同じ系統名が使われているもの

Actinobacteria
Aquificae
Chloroflexi
Chrysiogenetes
Deferribacteres
Elusimicrobia
Gemmatimonadetes
Nitrospira
Thermodesulfobacteria
Thermotogae

これらを例外処理すれば良い。