BH13.13/MCCV

提供:TogoWiki

移動: 案内, 検索

目次

概要

Microbial Culture Collection Vocabulary: MCCV は、主として日本の菌株ストックセンターが提供している菌株メタデータをRDFで記述する際に必要となる語彙を提供するOWLオントロジーである。

作業目標

BioSample 対応

参考リンクにあるように、NCBIのTaxonomy ID からBioSample ID への移行にともなって、MCCV でも菌株IDを配列情報につなぐために、菌株IDからBioSample IDリンクを表現するPredicateが必要になる。

GCM Minimum Data Sets Description対応

参考リンクにあげた、GCM Minimum Data Sets Description (菌株15項目)を記述できることを、該当するMCCVのPredicateに、skos:definition等で記述する。

新規Predicate の追加

主として、NIES の菌株メタデータのうち、MCCVで記述した方がよい項目に関して、新規Predicateを追加する。

Day 3 (1/29)

  • 微生物産業利用支援データベース DataBiosafety for Industrial Applications of Microbes: DIAM (http://dbarchive.biosciencedbc.jp/jp/diam-microbe/desc.html) をRDF化を現在構想中。 DIAM は、微生物株に関して、GCM minimum dataset のような基本情報や、産業応用に関する情報等が登録されている。
  • RDF化には、MCCV を利用したい。
  • DIAMは、微生物株のユニークなキーとして、Taxonomy IDを利用しているが、MCCVのプロパティは主語のドメインが、mccv:MCCV_00001 (Culture) と定義されているので、Taxonomy ID を主語にすることができない。Taxonomy ID が、Strain を指さなくなったこともあり、Taxonomy IDも使えるようにドメインを拡張をするのも不適切。さらに,

BioSample も、これまでのディスカッションから、問題があることが判明してきた。

Day 4 (1/30)

WFCC-WDCMの基本15項目以外の様々な菌株メタデータを、JCMさんから以前14280株分直接頂いたので、それらのデータセットから、語彙を整理して他のデータとあわせると面白いアプリケーションが作れそうなデータをピックアップした。 具体的な情報としては、

  • 分離源 15項目のIsolation From列と基本的には同じだが、文献番号が付いている
  • 分離地 15項目のGeographic Origin列は、空欄だったが、こちらは文献番号と地名。GAZETTEERとマッピング可能だが…。
  • 分離日 1950とか23 iv 78や、48等色々ある
  • 分離者 個人名
  • 分離情報(その他) Biotypeやその他メモで非常に雑多。ポリアミンの情報など、良さげな情報もあるのだが、文献引用のみなので情報抽出は手間がかかる。
  • 分類情報(生理・生化学性状) ほぼ文献引用のみ
  • 分類情報(化学分類) ほぼ文献引用のみ
  • 分類情報(細胞壁) LL-A_n(2)pm, Gly [文献番号]; LL-A_n(2)pm-Gly [文献番号]; _i(N)-acetyl Mur [文献番号]; glycerol teichoic acid (Glc) [文献番号]や、Type B2_k(b) (_r(<)L-Hsr_r(>) D-Glu-Gly-D-Orn) [文献番号]; _i(N)-glycolyl Mur [文献番号]; sugars (Gal, Glc) [文献番号]など、ペプチドグリカンのペプチドが何か、グリカンが何かが書かれているっぽい。
  • 分類情報(記載) 系統分類情報について記述された文献の引用
  • 分類情報(脂肪酸) C_n(18:1), C_n(16:0), C_n(16:1) [文献番号]、i-C_n(15:0), C_n(16:1) (_k(D)_p(11)) [文献番号]、a-C_n(15:0), i-C_n(16:0) [文献番号] など。カテゴリカルではなく、各脂肪酸の組成で表す必要があるので、厄介ではある。しかし、有望。
  • 分類情報(DNAのG+C含量) 44.7 [文献番号], 39.8 [文献番号]等、同じ株で文献によって5%も差があったりするので、ドラフトゲノムがわりと容易に決まる時代にはちょっと信頼性が低い。
  • 分類情報(DNA-DNA(RNA)ホモロジー) ほぼ文献引用のみ
  • 分類情報(形態) Phototropical [文献番号]、Granular surface [文献番号]等。
  • 分類情報(接合型) (+)、a [文献番号]、A1B1 [文献番号]等。
  • 分類情報(数値分類) Cluster ID2 [文献番号]、Cluster D [文献番号]等。
  • 分類情報(系統分類) 16S rRNA gene (配列アクセッション番号)、16S rRNA gene (配列アクセッション番号) [文献番号], _i(gyrB) (配列アクセッション番号) [文献番号]など、系統分類の参考にした遺伝子配列の名前とアクセッション番号。
  • 分類情報(極性脂質) DPG, PG, dimannosyldiacylglycerol [文献番号]やType PIV [文献番号]等。
  • 分類情報(イソプレノイド・キノン) MK-9, MK-8 [文献番号]、Q-10 [文献番号]等。
  • 分類情報(血清学) Group E [文献番号]、Type II [文献番号]等。
  • 分類情報(分類学) 文献引用のみ。
  • 分類情報(酵素パターン) 文献引用のみ。
  • その他の学術情報 Hemagglutination activity [文献番号]、16S rRNA gene partial sequence of this strain has a high similarity (99.4%) with _i(学名)等、雑多。
  • Quality control 16S rRNA gene (配列アクセッション番号)など、その菌株がコンタミしていないことを確認するための判断基準となるSequenceのID?
  • 病原性 Pathogenicity [文献番号]、Phytopathogenic、Zoopathogenic、Farmer_n(')s lung [文献番号]など、具体的な病名が付いているものもあれば、曖昧なものもある。
  • 抗生物質生産は、high yields of penicillin [文献番号]、proactinomycins A, B and C等、その菌株が産生する抗生物質が記述されている。
  • プロダクト情報は、lactic acid [文献番号]、phospholipase C, haemolysins and lethal toxins [文献番号]等、雑多。
  • その他の応用は、Sporicidal test [文献番号]、Fermentation of xylose [文献番号]等、様々なApplication
  • アッセイは、biotin and nicotinic, _i(p)-amino benzoic and pantothenic acids [文献番号], cysytine, isoleucine, leucine, methione, phenylalanine, tryptophane and valine [文献番号]や、deoxyribonucleic acid [文献番号]等、どのような生化学的なアッセイをしたのか?
  • 分類情報 DNAtypingは、Ribotype [文献番号]、AFLP [文献番号], RAPD-PCR [文献番号]など、DNAでの系統推定情報の論文引用。
  • 分類情報 Serovarは、Serovar 1 [文献番号]やSerovar R [文献番号]等、血清型か。
  • Reference DOI番号は、10.1099/ijs.0.055020-0等、文献のDOI番号。
  • Genome sequence番号は、Genome sequence Complete Genome INSDC アクセッション番号やGenome sequence ドラフトゲノムアクセッション番号など、ゲノム配列のアクセッション番号。


良さげな候補は、

  • 分類情報(イソプレノイド・キノン)
    • メジャー、マイナーの区別はなくしてデータをマージ
    • 水素が1-数個付加されたメナキノンやキノンをクラスとして区別すべきかを判断する必要があるが、微生物にとって何か機能的に異なるのかを調べて考える必要がある
  • 病原性
    • PDOにマッピングする
  • 抗生物質生産
    • KEGG Drugには抗生物質の化学的な分類と機能分類もあるので、まずはKEGG Drugにマッピングしてみて、どの程度網羅出来ているかを見る。

など。


良さげな項目選定にあたって主に参考にした資料

Day 5 (1/31)

  • MCCV に、Culture の上位概念として、Strain クラスを追加することにした(MCLと同じモデル)。
  • それにあわせて、すべてのProperty のドメインに、Strain クラスを追加することにした。
  • Strain クラス が指す内容は、初日に藤澤さんが発表してくれた、Sample Set に対応する。
  • DIAM には、Species レベルの情報と、Culture レベルの情報が両方入っているが、Strain クラスを導入することで、MCCVで、DIAMをRDF化するモデルができた。

参考リンク

個人用ツール