BH11.11/ヒト・環境メタゲノムメタデータのオントロジー整備とRDF化

提供:TogoWiki

2011年11月25日 (金) 04:09時点におけるYayamamo (トーク | 投稿記録)による版
移動: 案内, 検索

目次

目標

  • ヒトメタゲノム・環境メタゲノムのメタデータの内容を整理し、既存の制御語彙もしくはオントロジーと対応付ける方法を考える
  • 上記で設計した手法を実際のデータに適用しRDFデータをつくる

今回の議題

  • メタデータCategory内容について -mri
    • 統計値: どのような内容のデータがいくつくらいあるか
      • ヒトメタゲノム 7万サンプル 85 カテゴリー
      • 環境メタゲノム 4054サンプル 627 カテゴリー
    • マニュアルキュレーション出来そうなカテゴリー項目の選定
    • sanger(DDBJ FlatFile)の内容を検討 -kmn
  • オントロジーとの対応 -so, yy, kwsm
  • マッピング手法の調査選定とプロトタイピング -so, yy, kwsm
  • NBRC菌株メタデータの整理 -sgw
    • 分離源、培地情報の整理とRDF設計

進め方

  • メタデータのどのカテゴリーを対象とするか
    • 環境メタゲノムの生育場所に関連する情報を対象にする
  • マッピング作業の設計
    • predicateの選定 - so, kwsm, yy, kim
    • カテゴリー名の名寄せ
      • カテゴリーのピックアップ (済) → ファイル共有
      • カテゴリ内の値を取る (済) → ファイル共有
      • Habitatに関するカテゴリーは39カテゴリー
      • カテゴリー名の表記ゆれの個別の値、サンプルIDをトレースできるようにする
    • Test (例)の設計重要 -kim
    • サンプルアノテーション or ワードのマッピング? とりあえず単語のマッピング
      • 文章の場合はワードにどうやって分ける?
  • 作業設計のまとめ
    • 利用ボキャブラリー, オントロジー, predicate, を元に作業マニュアルを共有
  • 作業分担
  • 想定しているユースケースの列挙
  • LODチャレンジへの応募を検討する

関連・支流

  • BioProject, BioSample ヒアリング -kmn
    • DDBJ(GenBank flatfile)のENV divisionデータの整理:
      • ENV division = The ENV division of GenBank, for non-WGS sequences obtained via environmental sampling methods in which the source organism is unknown, debuted with release 147 in April 2005. (Benson et al. 2006) Sangerシークエンサーによるメタゲノム解析やメタ16S解析のデータなどが含まれる。

     Release 87.0(2011/9版) SOURCE /isolation_source, Accession数=約370万, ユニークタグ数=18,428

将来的な連携?

  • メタデータによる各機関のリソース連携案 -kmn

Ek hackathon1.PNG


作業ログ

2011-11-21

  • 議題に対して議論
  • 作業内容のデザイン
  • 関連活動の調査
  • マッピングオントロジーの選定
    • EnvO, skos
  • 作業マニュアルの作成
  • 試行マッピング作業
    • レビュー
    • 作業マニュアルの改訂

2011-11-22

  • 森さんが作成した、1961 のSRSサンプルに対して、環境に関係するメタデータが記述された39カテゴリーのメタデータ一覧をEnvOにマッピング
  • とりあえず、5人で、それぞれ30 SRSサンプルずつ、EnvOにマッピングし、それぞれの作業結果を全員でレビューした
  • 1,961のサンプルに記述された環境メタデータの総数は3000程度

2011-11-23

  • 森さんが、3000強あった、SRAの環境に関係しそうなタームを、400程度にまで減らしたリストを作成
  • 400のタームについては、マニュアルでマッピングすることにした。
  • 昨日、作業した120については、各自の担当分を記入するだけなので、残りは約300。=>ほぼ完成
  • マップされたEnvO IDが、EnvOのどの階層に登場するか調査した.
  • これらの結果から、メタゲノム・ゲノムの生育環境オントロジーをどのように設計するか考察した。
    • オントロジー構造の変更
    • 現状のEnvOだと足りない点を別のオントロジーで補う
    • 候補としては、 場所のオントロジーとして、OGR: Ontology of Geographical Region や OBIS: Ocean Biogeographic Information System等。 Habitatの、アナトミー関連のオントロジーとして、FMA: Foundational Model of Anatomy ontology, PO: Plant Ontology 等。

2011-11-24

  • Microbe environment Ontology (MeO)のデザインを修正

Meo structure.png

  • 追加オントロジーのマッピング
    • EnvOではタームの足りない部分にFMA(動物アナトミー), PO(植物アナトミー), GAZETTEER(地名索引), Taxonomy IDを利用して表現
    • マッピングの例
  • マッピング作業の整理とマニュアル化
  • マッピング作業支援ツールの開発
  • LODチャレンジへの参加を検討
  • TODO
    • MeOのデザインの改善
    • protegeを用いてMeOをOWL記述する
    • SRAサンプルアノテーション作業のデザイン

メンバー (所属) 興味

  • 菅原先生 (DDBJ) 培地・分離源情報のRDF化 [sgw]
  • 重元さん (DDBJ) GTPS, 各種RDF化
  • 大田さん (DBCLS) SRAメタデータ整理 NGSデータ整理 [ota]
  • 内藤さん (DBCLS) "GGRNA"高速配列検索, RNA配列, DNA配列
  • 金さん(DBCLS)オントロジー, テキストマイニング [kim]
  • 岡本 (DBCLS) アノテーション, キュレーション, 微生物ゲノム [so]
  • 内山先生 (NIBB) オーソログ分類→メタゲノム, MBGD
  • 西出さん (NIBB) MBGD開発実務
  • 千葉さん (NIBB) MBGD開発実務, 微生物統合プロジェクト
  • 川島さん (HGC) ゲノム環境オントロジー, LinkDB RDF化 [kwsm]
  • 山本さん (DBCLS) Text Mining, 表記ゆれの吸収など [yy]
  • 中村先生 (DDBJ) DRA, INSDC, 微生物ゲノム [yn]
  • 神沼さん (DDBJ) DRA, DTA, DOR/CIBEX, BioSample, BioProject [kmn]
  • 黒川先生(東工大)メタゲノム比較, microbe.jp, 微生物統合プロジェクト
  • 森さん (東工大) メタゲノム比較, microbe.jp, 微生物統合プロジェクト [mri]
  • 竹原さん (東工大) メタゲノム比較, 微生物統合プロジェクト
  • 吉野さん (東工大) メタゲノム比較, 微生物統合プロジェクト
  • 後藤さん (阪大) 病原菌メタゲノム, OpenBio

個人用ツール