提供:TogoWiki
		
		
		
|  研究開発課題名  |  データサイエンスを加速させる微生物統合データベースの高度実用化開発
 | 
|  研究代表者  |  黒川 顕
 | 
|  所属・役職  |  国立遺伝学研究所 生命情報研究センター 教授
 | 
|  概   要  |  我々はこれまで、微生物データの統合化、超高度化を推進し、フルRDFによる微生物統合データベース(以降DB)MicrobeDB.jpを構築してきた。統合DBにおいては、全データが連結された巨大なグラフとなっており、利用者は巨大グラフの全貌が不明であるため、「巨大グラフをどのように辿ればどのような答えが出てくるのか」を想定できず、これまでのDBの利用形態を適用する事が本質的に困難となる。これは統合DBの利用そのものが、新しい科学的手法である事を意味しており、この新しい科学的手法こそが「データサイエンス」であると言えよう。そこで本研究開発では、徹底的なデータ統合および高度化は継続しつつ、「統合化されたデータをどのように渡り歩き、どのような新規知見を得るか」という統合DBの実用化に向けた、データサイエンスを加速させる統合DBの利活用方法の開発に重点を置き、MicrobeDB.jp活用による新たな科学的手法、すなわちデータサイエンス研究手法を提案するとともに、MicrobeDB.jpの実用化を目指す。
 | 
  参加メンバー 
-  黒川顕 (遺伝研)
 -  内山郁夫(基生研)
 -  山田拓司(東工大)
 -  高橋弘喜(千葉大)
 
-  中村保一(遺伝研)
 -  森宙史 (遺伝研)
 -  藤澤貴智(遺伝研)
 -  千葉啓和(DBCLS)
 -  西出浩世(基生研)
 
  具体的な研究開発 
RDFでデータが記述された統合DB MicrobeDB.jp http://microbedb.jp/ の利活用方法の開発に重点を置き、以下の7項目の研究開発を行う。
-  徹底したユーザビリティの向上
 -  データ品質の向上
 -  キラーアプリケーションの開発
 -  さらなるデータの統合
 -  基盤データ解析技術の高度化
 -  効率的運用
 -  ホロゲノム対応
 
  3年次末までの達成目標 
-  MicrobeDB.jpトップページとして新たに開発するポータルサイトに、統合DB中のデータを駆使したユースケースを示すため、Stanzaおよびアプリケーションを10種以上設置する。
 -  真核メタITSデータに対する解析パイプラインを開発し、MicrobeDB.jpにて公共の真核メタITSデータの検索および比較解析を可能にする。
 -  MicrobeDB.jpで行っている、MEO等のオントロジーを用いたメタデータのアノテーションにかかる時間を、オントロジー自動アノテーションツールの精度向上により60%低減する。
 -  オーソログデータを段階的に構築するプロトコルについて、差分更新によって効率的に更新が行える体制を構築する。これを用いて、公表されたゲノムデータ全体を取り込んだオーソログデータベースの構築を行う。
 -  更新対象とするゲノムに優先度を付けて、優先度の低い生物種を更新対象から外すことによって、データサイズを減らしつつ、必要十分なゲノムデータを取り込んだオーソログデータベースを構築するための汎用的な仕組みを開発する。
 -  オーソログデータに基づいて比較ゲノム解析を行うアプリケーションとして「オーソログ検索によるアノテーション」、「系統プロファイル解析」、「コアゲノム・パンゲノム解析」などを実装する。
 -  これら開発を通して、MicrobeDB.jpの年間訪問者数を13,000 人以上にする。
 
  5年次末までの達成目標 
-  ホロゲノム研究に活用できるよう、植物統合DBと密に連携する。
 -  MEO以外のオントロジーアノテーションについても、MEOと同水準で自動化する。
 -  オントロジー自動アノテーションの高効率化を受け、MicrobeDB.jpのローコストかつ定期的なバージョンアップを実施する体制を整備する。
 -  より安定的な運用を目指して、DDBJとの連携を強める。
 -  利用者のフィードバックに基づいてインターフェイスの改良を行うとともに、「シンテニー解析」や「ゲノムアライメント」などの新たな比較ゲノム解析アプリケーションの開発を行う。
 -  3年次までに開発した、選択的にデータを取り込むことによりオーソログデータを更新する仕組みを実装し、ゲノムデータの規模が計算機の処理能力を超えて増大した場合でも、規模を抑えつつ最善のオーソログデータを作成できるような更新体制を構築する。
 -  これら開発を通して、MicrobeDB.jpの年間訪問者数を26,000人以上にする。