BH13.13/TogoDB

提供:TogoWiki

移動: 案内, 検索

目次

統合DB実務者会議

6グループ(金谷、黒川、成松、田畑、中村、豊田)の実務者で次期統合の横串を考えます。 メタボローム等の omics データを管理する時に必要な情報の共通化をはかります。

問題点
  • 生物種の名称問題 ... NCBI Taxonomy で足りない部分
  • 化合物の名称問題 ... InChI, CAS番号で足りない部分

参加グループのまとめ

金谷G

MassBank, BioMassBank, KNApSAcK の統合化。 代謝物の CAS ID は整理済みで、InChI コードも生成可能。

生物種を中心に情報収集してきたが、生物間相互作用の情報、生理活性情報も文献から収集。 生理活性情報に関しては既に RDF 化。

申請タイトル「生物種標準メタボローム・データベースの構築」


概念図

黒川G

MicrobeDB.jp としてオントロジーの統合化

Gene
MBGD, GTPS/RefSeq, TogoAnnotation
Taxon
NCBI Taxonomy, NBRC/JCM
Environment
INSDC SRA (metadata & metagenome)

配列相同性をもとに情報を統合、RDF化。菌株データは既に真核微生物(藻類、カビ等)も含まれているので、バクテリアのみならず真核微生物も含めることになりそう。 文献からの配列情報等を集めたら、あとは配列相同性で整理するのが楽かも。

成松G

糖鎖構造を統一的に記述する wurcs フォーマットがほぼ完成。GenBankのような糖鎖バンクを作りたい。 wurcs はアグリコンを自動的に取り除き、糖鎖部分が同じものをコード化してくれる。 植物二次代謝物の配糖体にも使えるかもしれない。

中村G

PDB は全て RDF 済み。さらに chemical component というセクションがあり、PDB に出てくる化合物毎に整理。InChI 完備。 糖鎖はタンパク質の精製条件等にも依存。

生物種の情報はあまり入っていないが、source 生物種に関しては NCBI Taxonomy 情報有り。

豊田→桝屋G

生物種の垣根を超えたフェノーム汎用スキームの構築 「何の(器官):性質が(形質):どうなった」

微生物が分子を産生するという情報も、表現型の1つとみなせる(分子表現型)。生理活性もある意味、表現型である。 フェノタイプという側面から連携したい。

田畑G

植物の遺伝子マーカー、オーソログ情報を地道にデータベース化。各データの規模はそう大きくない。 関連データベースの情報を取り込んでリンク、現在数多くのDBと連携。

次期は多くのデータへ統合化。全体を俯瞰するビジュアルの設計が重要。

統合の方向性

理想
RDF による世界の救済
現実
集まってもらったグループの中だけでもRDF化で連携。全グループに共通するデータは、学名(生物種)と化合物名

生物種

実施事項

BioSample ID

  • DDBJが企画する BioSample ID
  • BioSample ID は原則、各 contributor まかせ(整理しきれない)
  • 統合DBの枠組み内ではマウス、植物、微生物で分けて対応する必要
合意事項

遺伝子配列がある場合は NCBI Taxonomy があるので、このIDを共通化の際に用いる。 URIを揃えるため [1] を使うこと。

遺伝子配列がないものについては、なるべく新しい学名を用いる。といっても、論文における名前は信用できないので探す。

代謝物

実施事項
  • 糖鎖に注目(糖脂質、糖タンパク質、二次代謝物)、糖転移酵素の分類と同定
  • フラボノイドの構造 (7000件) に付随する糖鎖構造を wurcs フォーマットに変換
  • 統合DBの時期申請に、揮発性化合物と昆虫の相互作用を明示的に含める(関連研究者)
合意事項
  • CAS番号を少なくとも一つつけること
  • InChI はMOLファイル(構造ファイル)依存なので、ChemSpider や PubChem で見つかる場合はそれをコピペすること
  • 日化辞 ID もつけると日本語化が進んで良い

逆に言えば、化合物名だけは避ける。PubChem ID や ChemSpider ID だけに限定するのは避ける。

/mw/BH13.13/TogoDB」より作成