TPP2-kurokawa

提供:TogoWiki

移動: 案内, 検索
研究開発課題名 データサイエンスを加速させる微生物統合データベースの高度実用化開発
研究代表者 黒川 顕
所属・役職 国立遺伝学研究所 生命情報研究センター 教授
概   要 我々はこれまで、微生物データの統合化、超高度化を推進し、フルRDFによる微生物統合データベース(以降DB)MicrobeDB.jpを構築してきた。統合DBにおいては、全データが連結された巨大なグラフとなっており、利用者は巨大グラフの全貌が不明であるため、「巨大グラフをどのように辿ればどのような答えが出てくるのか」を想定できず、これまでのDBの利用形態を適用する事が本質的に困難となる。これは統合DBの利用そのものが、新しい科学的手法である事を意味しており、この新しい科学的手法こそが「データサイエンス」であると言えよう。そこで本研究開発では、徹底的なデータ統合および高度化は継続しつつ、「統合化されたデータをどのように渡り歩き、どのような新規知見を得るか」という統合DBの実用化に向けた、データサイエンスを加速させる統合DBの利活用方法の開発に重点を置き、MicrobeDB.jp活用による新たな科学的手法、すなわちデータサイエンス研究手法を提案するとともに、MicrobeDB.jpの実用化を目指す。

目次

参加メンバー

  • 黒川顕 (遺伝研)
  • 内山郁夫(基生研)
  • 山田拓司(東工大)
  • 高橋弘喜(千葉大)
  • 中村保一(遺伝研)
  • 森宙史 (遺伝研)
  • 藤澤貴智(遺伝研)
  • 千葉啓和(DBCLS)
  • 西出浩世(基生研)

具体的な研究開発

RDFでデータが記述された統合DB MicrobeDB.jp http://microbedb.jp/ の利活用方法の開発に重点を置き、以下の7項目の研究開発を行う。

  • 徹底したユーザビリティの向上
  • データ品質の向上
  • キラーアプリケーションの開発
  • さらなるデータの統合
  • 基盤データ解析技術の高度化
  • 効率的運用
  • ホロゲノム対応

3年次末までの達成目標

  • MicrobeDB.jpトップページとして新たに開発するポータルサイトに、統合DB中のデータを駆使したユースケースを示すため、Stanzaおよびアプリケーションを10種以上設置する。
  • 真核メタITSデータに対する解析パイプラインを開発し、MicrobeDB.jpにて公共の真核メタITSデータの検索および比較解析を可能にする。
  • MicrobeDB.jpで行っている、MEO等のオントロジーを用いたメタデータのアノテーションにかかる時間を、オントロジー自動アノテーションツールの精度向上により60%低減する。
  • オーソログデータを段階的に構築するプロトコルについて、差分更新によって効率的に更新が行える体制を構築する。これを用いて、公表されたゲノムデータ全体を取り込んだオーソログデータベースの構築を行う。
  • 更新対象とするゲノムに優先度を付けて、優先度の低い生物種を更新対象から外すことによって、データサイズを減らしつつ、必要十分なゲノムデータを取り込んだオーソログデータベースを構築するための汎用的な仕組みを開発する。
  • オーソログデータに基づいて比較ゲノム解析を行うアプリケーションとして「オーソログ検索によるアノテーション」、「系統プロファイル解析」、「コアゲノム・パンゲノム解析」などを実装する。
  • これら開発を通して、MicrobeDB.jpの年間訪問者数を13,000 人以上にする。

5年次末までの達成目標

  • ホロゲノム研究に活用できるよう、植物統合DBと密に連携する。
  • MEO以外のオントロジーアノテーションについても、MEOと同水準で自動化する。
  • オントロジー自動アノテーションの高効率化を受け、MicrobeDB.jpのローコストかつ定期的なバージョンアップを実施する体制を整備する。
  • より安定的な運用を目指して、DDBJとの連携を強める。
  • 利用者のフィードバックに基づいてインターフェイスの改良を行うとともに、「シンテニー解析」や「ゲノムアライメント」などの新たな比較ゲノム解析アプリケーションの開発を行う。
  • 3年次までに開発した、選択的にデータを取り込むことによりオーソログデータを更新する仕組みを実装し、ゲノムデータの規模が計算機の処理能力を超えて増大した場合でも、規模を抑えつつ最善のオーソログデータを作成できるような更新体制を構築する。
  • これら開発を通して、MicrobeDB.jpの年間訪問者数を26,000人以上にする。
/mw/TPP2-kurokawa」より作成