SPARQLthon20/MicrobeDB.jp

提供:TogoWiki

2014年5月28日 (水) 03:43時点におけるTfuji (トーク | 投稿記録)による版
移動: 案内, 検索

SPARQLthon20トップページへ

目次

MicrobeDB.jp

微生物統合DB http://microbedb.jp/MDB/ について、新たに取り組むべき課題の列挙

  • ゲノム
    • RefSeqゲノムデータの更新
      • 真核原核を同じRDFモデルで記述するか? (既存コンバータを真核ゲノムと原核ゲノムで試して確認をして、DBCLSとやり取りしながら、確定する。)
      • ドラフトゲノムの統計量(RefSeq、SGD、AspGD、Phytozome)
      • RDFモデルの更新 (RDF Summitの結果を受けて更新)
      • ドラフトゲノムを含めるか?
    • 真核微生物ゲノムデータのRDF作成
      • ドラフトゲノムが基本
      • Feature間の関係情報の見直し SO baseでSIOも使う(sio:hasValueがDataTypePropertyなので、Exon間の順序を記述するのに使える。SOにはDataTypePropertyがない)
  • メタゲノム
    • メタゲノムデータ取得から遺伝子コンテンツ計算までの出来るだけの自動化
      • 計算高速化の工夫
      • Multiplex(1配列ファイルに複数サンプル)をどうするか?
    • 遺伝子コンテンツデータにしてからの解析Stanzaの開発
    • 分離源データ等の様々なメタデータのオントロジーマッピング (MEO,MSV,PDO-CSSOの更新含む)
    • IMG/M、MG-RASTからのデータの取得と、冗長性排除
    • 感染症オントロジーと連携したStanza構築
  • オーソログ
    • 真核微生物とあわせたオーソロググループの構築 (ドメイン単位なので真核入れるとどうなるか? Genome Refineがらみでドラフトゲノム関連の対応も含む)
    • 情報公開(purl.jp転送設定、BioPortal登録)
  • 菌株(WGSなどのアノテーション無しゲノムデータをMiGAPで処理してアノテーション付けを自分達でしてしまうべきか?)
    • 分離源データ等の様々なメタデータのオントロジーマッピング
    • 異なる菌株保存機関の株をまとめる菌株IDの生成 (NCBI Taxonomyで種まで、StrainはBioSampleを束ねる空白ノードかなにかを自分たちでとりあえず作るしか無い。記述があるもののみ。自分たちでcurationはしない。全自動。taxonomy.owlを継承する? DBCLSとも共同で)
    • ゲノム解読済み株を利用した菌株と他の情報をあわせたStanzaの開発
    • 真菌類・藻類向けの菌株メタデータの充実
  • オミックス(サンプルデータを使ってフローをまわしてみる。 Reference Genome無くても、遺伝研パイプラインでReference手軽に見つけられるかも。マッピング結果のRDF化。RPKMで遺伝子ごとにする?サンプル間で平均値化して転写開始点を予測?)
    • RNA-Seqの配列データ・メタデータ取得
      • Reference Genomeが存在するデータのみ?
      • Reference Genomeが存在するか否かは容易に判断可能か?
    • RNA-Seq等の実験条件のメタデータ整理
    • サンプル間の比較解析Stanza
  • 真菌類全般(とりあえず状況調査。統計量を計算)
    • 遺伝子クラスターのRDF表現
    • RNA-SeqデータのSGD, AspGDからの取得
    • 真核メタゲノム、Ampicon Sequencingへの対応
  • MiGAP/MeGAPを利用したユーザデータの取り込み (ID、オントロジーどうするかを話し合う必要がある)
    • 入力して欲しいメタデータのリストアップ
    • MeGAP-GenomeRefine連携
  • システム(ページ単位での表示の限界。Stanza ontology?キーワード検索からのフロー。RDFから検索キーワードindex作成すべきか?検索システムどうするか?)
    • user stanzaどうするか? stanza repository?
    • 検索システムをどうするか?
      • キーワード-Stanza対応データ
      • Stanza間の関係性の記述?
    • オントロジーマッピング半自動化

8についての議論のメモ

MEO, Taxonomy, SO以外は、データを細かくクラス付けて検索する対象をオントロジー単位で絞る

認証があるので、個人に特化できる。

Stanza APIがあると良い。

Moreボタンか、スクロールすれば、一気にSPARQL問い合わせが大量にという問題は解決可能・

キーワードからなぜそのStanzaにたどり着いたのかを視覚化するStanza

キーワードからオントロジーのラベルを検索する

キーワードtoオントロジーを考えた瞬間に、データへのオントロジーマッピングは見直す必要がある。

Stanzaごとに、関連するオントロジーをDB化する?


特にDBCLSや他のグループと連携して解決して行きたい課題

  • ゲノム

MicrobeDB.jpでは、RefSeqのゲノムデータをRDF化している。

真核微生物と原核生物のゲノムを同じRDFモデルで記述したい。

問題点: 真核微生物はエクソンーイントロン構造があるために、gene、transcript、protein間の関係性が原核生物とは異なる。

(既存コンバータを真核ゲノムと原核ゲノムで試して確認をして、DBCLSとやり取りしながら、RDFモデルを確定する。) 


  • オーソログ

真核微生物とあわせたオーソロググループの構築 (MBGDはドメイン単位なので真核入れるとどうなるか?)

問題点: MBGD以外のオーソログとのマッピング


  • 系統(菌株)

問題点:微生物は株まで区別するのが必須。しかしながら、今まで依存していたNCBI Taxonomyは今後種までしかアサインされない。

株レベルのIDどうするかは世界的にも未定。BioSample IDや菌株保存機関の菌株IDがついているものについては、それらを束ねるIDまたは空白ノードをこちらで自動的に割りふる。DBCLSと共同で。

自分達でマニュアルで割り振る作業は出来るだけ避けたい。


  • オミックス(RNA-Seq)

問題点: RNA-SeqデータをReference Genomeにマッピングした結果をどうRDF化するか?(遺伝子ごとにRPKMを計算してRDF化?)

問題点2: Reference Genome無いRNA-Seqデータをどうするか?(既存ゲノム中からReference Genomeを自動で見つけるフローを採用する?)


  • 検索システム

問題点: キーワード検索する際に、100以上のStanza全てにキーワードを元にSPARQL検索するのか?

検索するStanzaを絞り込む or Triple Storeのクラスターマシンによる分散

RDFから検索キーワードindex作成?

Stanza ontologyを作って検索対象とする?


真核生物の調査

Green Algae

ftp://ftp.ncbi.nlm.nih.gov/genomes/GENOME_REPORTS/eukaryotes.txt から Green Algae を抽出 2014.05.28

#Organism/Name TaxID BioProject Accession BioProject ID Group SubGroup Size (Mb) GC% Assembly Accession Chromosomes Organelles Plasmids WGS Scaffolds Genes Proteins Release Date Modify Date Status Center BioSample Accession
Chlamydomonas reinhardtii 3055 PRJNA12260 12260 Plants Green Algae 120.405 63.8478 GCA_000002595.2 - 2 - ABCN01 1558 14488 14489 2007/08/03 2009/08/26 Scaffold DOE Joint Genome Institute -
Ostreococcus tauri 70448 PRJNA12912 12912 Plants Green Algae 12.5723 59.0186 GCA_000214015.1 20 2 - CAID01 22 8114 7994 2010/10/15 2012/04/10 Chromosome with gaps Laboratoire Arago, France -
Ostreococcus lucimarinus CCE9901 436017 PRJNA13044 13044 Plants Green Algae 13.2049 60.4431 GCA_000092065.1 21 - - - 21 7640 7603 2007/04/10 2011/01/14 Gapless Chromosome US DOE Joint Genome Institute -
Volvox carteri f. nagariensis 3068 PRJNA13109 13109 Plants Green Algae 137.684 56 GCA_000143455.1 - - - ACJH01 1251 14437 14436 2010/07/06 2010/08/13 Scaffold US DOE Joint Genome Institute (JGI-PGF) -
Chlorella variabilis 554065 PRJNA45853 45853 Plants Green Algae 46.1595 67.1 GCA_000147415.1 - - - ADIC01 414 9780 9780 2010/08/31 2014/05/05 Scaffold JGI SAMN02743869
Micromonas pusilla CCMP1545 564608 PRJNA15678 15678 Plants Green Algae 22.0001 65.8584 GCA_000151265.1 - 1 - ACCP01 22 10288 10269 2009/04/07 2010/08/16 Scaffold Micromonas Genome Consortium -
Coccomyxa subellipsoidea C-169 574566 PRJNA32657 32657 Plants Green Algae 48.8266 52.9 GCA_000258705.1 - - - AGSI01 29 9915 9839 2012/04/13 2012/06/19 Contig JGI -
Micromonas sp. RCC299 296587 PRJNA15676 15676 Plants Green Algae 21.1093 63.8223 GCA_000090985.2 17 2 - - 19 10127 10140 2009/04/10 2009/08/04 Gapless Chromosome Micromonas genome consortium -
Helicosporidium sp. ATCC 50920 1291522 PRJNA188927 188927 Plants Green Algae 12.3738 61.7 GCA_000690575.1 - - - AYPS01 - 6033 6033 2014/05/13 2014/05/13 Contig University of British Columbia SAMN02384563
個人用ツール