提供:TogoWiki
研究開発課題名 | データサイエンスを加速させる微生物統合データベースの高度実用化開発
|
研究代表者 | 黒川 顕
|
所属・役職 | 国立遺伝学研究所 生命情報研究センター 教授
|
概 要 | 我々はこれまで、微生物データの統合化、超高度化を推進し、フルRDFによる微生物統合データベース(以降DB)MicrobeDB.jpを構築してきた。統合DBにおいては、全データが連結された巨大なグラフとなっており、利用者は巨大グラフの全貌が不明であるため、「巨大グラフをどのように辿ればどのような答えが出てくるのか」を想定できず、これまでのDBの利用形態を適用する事が本質的に困難となる。これは統合DBの利用そのものが、新しい科学的手法である事を意味しており、この新しい科学的手法こそが「データサイエンス」であると言えよう。そこで本研究開発では、徹底的なデータ統合および高度化は継続しつつ、「統合化されたデータをどのように渡り歩き、どのような新規知見を得るか」という統合DBの実用化に向けた、データサイエンスを加速させる統合DBの利活用方法の開発に重点を置き、MicrobeDB.jp活用による新たな科学的手法、すなわちデータサイエンス研究手法を提案するとともに、MicrobeDB.jpの実用化を目指す。
|
参加メンバー
- 黒川顕 (遺伝研)
- 内山郁夫(基生研)
- 山田拓司(東工大)
- 高橋弘喜(千葉大)
- 中村保一(遺伝研)
- 森宙史 (遺伝研)
- 藤澤貴智(遺伝研)
- 千葉啓和(DBCLS)
- 西出浩世(基生研)
具体的な研究開発
RDFでデータが記述された統合DB MicrobeDB.jp http://microbedb.jp/ の利活用方法の開発に重点を置き、以下の7項目の研究開発を行う。
- 徹底したユーザビリティの向上
- データ品質の向上
- キラーアプリケーションの開発
- さらなるデータの統合
- 基盤データ解析技術の高度化
- 効率的運用
- ホロゲノム対応
3年次末までの達成目標
- MicrobeDB.jpトップページとして新たに開発するポータルサイトに、統合DB中のデータを駆使したユースケースを示すため、Stanzaおよびアプリケーションを10種以上設置する。
- 真核メタITSデータに対する解析パイプラインを開発し、MicrobeDB.jpにて公共の真核メタITSデータの検索および比較解析を可能にする。
- MicrobeDB.jpで行っている、MEO等のオントロジーを用いたメタデータのアノテーションにかかる時間を、オントロジー自動アノテーションツールの精度向上により60%低減する。
- オーソログデータを段階的に構築するプロトコルについて、差分更新によって効率的に更新が行える体制を構築する。これを用いて、公表されたゲノムデータ全体を取り込んだオーソログデータベースの構築を行う。
- 更新対象とするゲノムに優先度を付けて、優先度の低い生物種を更新対象から外すことによって、データサイズを減らしつつ、必要十分なゲノムデータを取り込んだオーソログデータベースを構築するための汎用的な仕組みを開発する。
- オーソログデータに基づいて比較ゲノム解析を行うアプリケーションとして「オーソログ検索によるアノテーション」、「系統プロファイル解析」、「コアゲノム・パンゲノム解析」などを実装する。
- これら開発を通して、MicrobeDB.jpの年間訪問者数を13,000 人以上にする。
5年次末までの達成目標
- ホロゲノム研究に活用できるよう、植物統合DBと密に連携する。
- MEO以外のオントロジーアノテーションについても、MEOと同水準で自動化する。
- オントロジー自動アノテーションの高効率化を受け、MicrobeDB.jpのローコストかつ定期的なバージョンアップを実施する体制を整備する。
- より安定的な運用を目指して、DDBJとの連携を強める。
- 利用者のフィードバックに基づいてインターフェイスの改良を行うとともに、「シンテニー解析」や「ゲノムアライメント」などの新たな比較ゲノム解析アプリケーションの開発を行う。
- 3年次までに開発した、選択的にデータを取り込むことによりオーソログデータを更新する仕組みを実装し、ゲノムデータの規模が計算機の処理能力を超えて増大した場合でも、規模を抑えつつ最善のオーソログデータを作成できるような更新体制を構築する。
- これら開発を通して、MicrobeDB.jpの年間訪問者数を26,000人以上にする。