TPP2-kurokawa

提供：TogoWiki

研究開発課題名	データサイエンスを加速させる微生物統合データベースの高度実用化開発
研究代表者	黒川顕
所属・役職	国立遺伝学研究所　生命情報研究センター　教授
概　　　要	我々はこれまで、微生物データの統合化、超高度化を推進し、フルRDFによる微生物統合データベース（以降DB）MicrobeDB.jpを構築してきた。統合DBにおいては、全データが連結された巨大なグラフとなっており、利用者は巨大グラフの全貌が不明であるため、「巨大グラフをどのように辿ればどのような答えが出てくるのか」を想定できず、これまでのDBの利用形態を適用する事が本質的に困難となる。これは統合DBの利用そのものが、新しい科学的手法である事を意味しており、この新しい科学的手法こそが「データサイエンス」であると言えよう。そこで本研究開発では、徹底的なデータ統合および高度化は継続しつつ、「統合化されたデータをどのように渡り歩き、どのような新規知見を得るか」という統合DBの実用化に向けた、データサイエンスを加速させる統合DBの利活用方法の開発に重点を置き、MicrobeDB.jp活用による新たな科学的手法、すなわちデータサイエンス研究手法を提案するとともに、MicrobeDB.jpの実用化を目指す。

参加メンバー

黒川顕　（遺伝研）
内山郁夫（基生研）
山田拓司（東工大）
高橋弘喜（千葉大）

中村保一（遺伝研）
森宙史　（遺伝研）
藤澤貴智（遺伝研）
千葉啓和（DBCLS）
西出浩世（基生研）

具体的な研究開発

RDFでデータが記述された統合DB MicrobeDB.jp http://microbedb.jp/ の利活用方法の開発に重点を置き、以下の7項目の研究開発を行う。

徹底したユーザビリティの向上
データ品質の向上
キラーアプリケーションの開発
さらなるデータの統合
基盤データ解析技術の高度化
効率的運用
ホロゲノム対応

3年次末までの達成目標

MicrobeDB.jpトップページとして新たに開発するポータルサイトに、統合DB中のデータを駆使したユースケースを示すため、Stanzaおよびアプリケーションを10種以上設置する。
真核メタITSデータに対する解析パイプラインを開発し、MicrobeDB.jpにて公共の真核メタITSデータの検索および比較解析を可能にする。
MicrobeDB.jpで行っている、MEO等のオントロジーを用いたメタデータのアノテーションにかかる時間を、オントロジー自動アノテーションツールの精度向上により60%低減する。
オーソログデータを段階的に構築するプロトコルについて、差分更新によって効率的に更新が行える体制を構築する。これを用いて、公表されたゲノムデータ全体を取り込んだオーソログデータベースの構築を行う。
更新対象とするゲノムに優先度を付けて、優先度の低い生物種を更新対象から外すことによって、データサイズを減らしつつ、必要十分なゲノムデータを取り込んだオーソログデータベースを構築するための汎用的な仕組みを開発する。
オーソログデータに基づいて比較ゲノム解析を行うアプリケーションとして「オーソログ検索によるアノテーション」、「系統プロファイル解析」、「コアゲノム・パンゲノム解析」などを実装する。
これら開発を通して、MicrobeDB.jpの年間訪問者数を13,000 人以上にする。

5年次末までの達成目標

ホロゲノム研究に活用できるよう、植物統合DBと密に連携する。
MEO以外のオントロジーアノテーションについても、MEOと同水準で自動化する。
オントロジー自動アノテーションの高効率化を受け、MicrobeDB.jpのローコストかつ定期的なバージョンアップを実施する体制を整備する。
より安定的な運用を目指して、DDBJとの連携を強める。
利用者のフィードバックに基づいてインターフェイスの改良を行うとともに、「シンテニー解析」や「ゲノムアライメント」などの新たな比較ゲノム解析アプリケーションの開発を行う。
3年次までに開発した、選択的にデータを取り込むことによりオーソログデータを更新する仕組みを実装し、ゲノムデータの規模が計算機の処理能力を超えて増大した場合でも、規模を抑えつつ最善のオーソログデータを作成できるような更新体制を構築する。
これら開発を通して、MicrobeDB.jpの年間訪問者数を26,000人以上にする。

TPP2-kurokawa

提供：TogoWiki

目次

参加メンバー

具体的な研究開発

3年次末までの達成目標

5年次末までの達成目標

表示

個人用ツール

案内

検索

ツールボックス