BH12.12/SPARQLthon16/BRC Strain
提供:TogoWiki
目次 |
MicrobeDB.jpにおけるBRC Strain Dataの定期更新のためのフロー構築
テストデータとしてJCMの2年前のデータと最新のデータを比較
ファイル形式に大きな変更は無し。
- 2年前のJCM菌株数 13397
- 今のJCM菌株数 14281
- 新規株数 935
- 記述が変更された株数 2948
どのような記述が変更されたか
- Other Collection Numbers: 他の菌株機関での菌株ID 例(新しい菌株機関の菌株IDが追加される)
- Application: 株の機能 例(利用目的が変わる、追加される)
- Name: 株名 例(株名変わる Corynebacterium xerosis -> Corynebacterium sp.、命名者名が変わる)
- Optimum Temperature for Growth: 培養温度 例(培養温度変わる)
- History of Deposit: 来歴 例(来歴変わる)
- Medium: 培地番号 例(培地が増える)
- Status: Type Strainか否か 例(新たにType Strainになる)
- Literature: 文献番号 例(文献追加)
つまり、ほぼ全部変更される可能性がある。
培地
- 2年前のJCM培地数 922
- 今のJCM培地数 1013
- 新規培地数 91
- 記述が変更された培地数 134
更新時の問題点
- 系統名の名寄せ
今まではNCBI Taxonomy IDに個別の菌株IDをひも付けていたが、今後StrainにはNCBI Taoxonomy IDが割り振られないことを考えると、何に名寄せすべきか?
BioSample IDへの名寄せと、NCBI Taxonomy IDへの名寄せをしばらくは併用した方が良さそう。
- オントロジーマッピングを多少は自動化したい
MEO, PDO, MPO, GAZETTEERなどなど
TogoAnnotatorが使える? 既にマニュアルマッピングした結果はあるので、辞書はある。
- 色々な項目の記述が変わったり系統名が変わった株は、前のバージョンとの互換性をどうする?
以前はMEO00001にマッピングしていたが、このバージョンからはMEO00002にマッピングする、とかの場合、ある日突然変えても問題無い?
バージョン情報をRDFに記述すれば良さそう。
- 特定の菌株機関由来のデータにしか無い項目をどの程度取り込んでRDF化するか?
(バイオハザードレベル、病原性等)