BH12.12/SPARQLthon16/BRC Strain

提供:TogoWiki

移動: 案内, 検索

目次

MicrobeDB.jpにおけるBRC Strain Dataの定期更新のためのフロー構築

テストデータとしてJCMの2年前のデータと最新のデータを比較

ファイル形式に大きな変更は無し。

  • 2年前のJCM菌株数 13397
  • 今のJCM菌株数 14281
  • 新規株数 935
  • 記述が変更された株数 2948

どのような記述が変更されたか

  • Other Collection Numbers: 他の菌株機関での菌株ID 例(新しい菌株機関の菌株IDが追加される)
  • Application: 株の機能 例(利用目的が変わる、追加される)
  • Name: 株名 例(株名変わる Corynebacterium xerosis -> Corynebacterium sp.、命名者名が変わる)
  • Optimum Temperature for Growth: 培養温度 例(培養温度変わる)
  • History of Deposit: 来歴 例(来歴変わる)
  • Medium: 培地番号 例(培地が増える)
  • Status: Type Strainか否か 例(新たにType Strainになる)
  • Literature: 文献番号 例(文献追加)

つまり、ほぼ全部変更される可能性がある。

培地

  • 2年前のJCM培地数 922
  • 今のJCM培地数 1013
  • 新規培地数 91
  • 記述が変更された培地数 134

更新時の問題点

  • 系統名の名寄せ

 今まではNCBI Taxonomy IDに個別の菌株IDをひも付けていたが、今後StrainにはNCBI Taoxonomy IDが割り振られないことを考えると、何に名寄せすべきか?

BioSample IDへの名寄せと、NCBI Taxonomy IDへの名寄せをしばらくは併用した方が良さそう。


  • オントロジーマッピングを多少は自動化したい

 MEO, PDO, MPO, GAZETTEERなどなど

TogoAnnotatorが使える? 既にマニュアルマッピングした結果はあるので、辞書はある。


  • 色々な項目の記述が変わったり系統名が変わった株は、前のバージョンとの互換性をどうする?

 以前はMEO00001にマッピングしていたが、このバージョンからはMEO00002にマッピングする、とかの場合、ある日突然変えても問題無い?

バージョン情報をRDFに記述すれば良さそう。


  • 特定の菌株機関由来のデータにしか無い項目をどの程度取り込んでRDF化するか?

 (バイオハザードレベル、病原性等)

個人用ツール