SPARQLthon23

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(TPP グループ全体)
(TPP グループ全体)
31行: 31行:
*** 後半部分については複雑かつ TPP グループごとに作業中なので、最初は共通スキーマをトップダウンで作るのではなく、ボトムアップに RDF を作りレビューし合うという方向性で合意(最終的にはできるだけ共通化する)→ スタンザ化
*** 後半部分については複雑かつ TPP グループごとに作業中なので、最初は共通スキーマをトップダウンで作るのではなく、ボトムアップに RDF を作りレビューし合うという方向性で合意(最終的にはできるだけ共通化する)→ スタンザ化
*** 議論の経過については [[TPP-DB]] のページに記録を残すことにした
*** 議論の経過については [[TPP-DB]] のページに記録を残すことにした
 +
* 櫛田さんから、文献についての調査報告がありました(8/19)
* 櫛田さんから、文献についての調査報告がありました(8/19)

2014年8月19日 (火) 00:19時点における版

第23回 SPARQLthon を下記日程で開催したいと思います。

目次

開催概要

プロジェクト

TPP グループ全体

  • 生物種メタボロームモデル・データベースの構築 (有田)
    • MassBankサーバ@三島を稼働させる (有田)
      • 既存の複雑なMassBankシステムをスマートなものに作り替えたいということで調査を行った
    • D2RQ でメタデータの RDF 生成 (櫻井)
  • ゲノム・メタゲノム情報統合による微生物DBの超高度化推進 (黒川)
    • オーソログと感染症の関係のスタンザ (森、千葉、山本)
      • 両方のデータを同じトリプルストアに入れて検索ができるようにした
      • 病原菌ゲノムと近縁種の非病原性の比較ゲノム解析で病原遺伝子の特定につなげたい
      • 各病原菌と病気のマッピングデータとオーソログ組成の RDF をあわせてスタンザ化する
  • 植物ゲノム情報活用のための統合研究基盤の構築 (田畑)
    • 植物病害 Disease curation の RDF 化 (市原・平川)
      • 病害キュレーション (+ 山本さん) 宿主生物や部位によって病名が違う状況をどう RDF 化すればよいか
      • 抵抗性を持つ品種と持たない品種 → ER図 参照
  • 糖鎖統合データベースおよび国際糖鎖構造リポジトリの開発 (成松)
  • 生命と環境のフェノーム統合データベース (桝屋)
    • データベースリスト をもとに共通 RDF を探る(今後このページに成果をまとめていく。オントロジー図のページは、各プロジェクトのスキーマ図をアップしていくのに使う。)
    • 生物種、ゲノム、分子、文献についてはだいたい合意できたので、後半を進める。上位概念についても出口の検討とともに進める。
      • 後半部分については複雑かつ TPP グループごとに作業中なので、最初は共通スキーマをトップダウンで作るのではなく、ボトムアップに RDF を作りレビューし合うという方向性で合意(最終的にはできるだけ共通化する)→ スタンザ化
      • 議論の経過については TPP-DB のページに記録を残すことにした


  • 櫛田さんから、文献についての調査報告がありました(8/19)

TPP 各グループのデータ分野とRDF化対象の表 https://docs.google.com/spreadsheets/d/1L0q18arcFq7EEO58lk3gOTCgCfKqrlmvINHgIrXTlWM/edit?usp=sharing で、文献のところを調査することになっていますが、KNApSAcKの文献情報を使って個々の文献の識別にどのIDが使えそうか検討してみました。

結論ですが、 ・DOI、もしくは ・PubMed ID を使うのがよさそうで、 それ以外のもの(DOI, PubMed IDがともについていないもの、書籍、学位論文など)はさらに別に検討する必要がありそうです。

DOIやPubMedIDのURLの例ですが、

    • DOIの場合、

http://dx.doi.org/10.1016/j.phytochem.2005.11.020

    • PubMed IDの場合、

http://www.ncbi.nlm.nih.gov/pubmed/?term=17376494 になります。

DOIおよびPubMed IDの取得は、 DOIを発行している機関が提供している検索サービスが使えそうです。 http://www.crossref.org/SimpleTextQuery (登録必要、無料)

例えば、 検索ワードとして、Phytochem.,68,(2007),1212 とした場合、 http://dx.doi.org/10.1016/j.phytochem.2007.01.020 PMid:17376494 PMCid:PMC2735499 の情報を取得することができます。

この場合の検索ワードは、 文献名(省略記述でも可能、例、J.Nat.Prod)、巻号、発行年、ページの情報があればよいです。 著者名があってもよいのですが、間違って入力すると、「結果なし」となってしまうことが多いので、著者名は入れないほうが経験的にはよいです。

文献情報リストを一括して検索することも可能です。


knapsack_core http://dbarchive.biosciencedbc.jp/jp/knapsack-core/download.html で使われている文献の一部について調べてみたところ、

DOIがつく文献は、70%程度、 PubMed IDがつく文献は、30%程度、 DOI, PubMed IDどちらもつかない文献は、25%程度でした。

以上、検討途中ですが簡単にご報告まで。

SPARQLthon グループ

  • がんゲノムの RDF 調査、Linked TCGA データのユースケース作成 (山中)
  • SPARQL BuilderのRonbunthon (山口、呉、戀津、小林)
  • SPARQLthon23/DDBJ: INSDC/Taxonomy OWL とコンバータの更新・公開・Ronbunthon (藤沢、片山)
  • オントロジー図 とドキュメント生成を山本さんのツール、山口さんたちの SPARQL builder などと共用化していきたい (大田、片山)
    • 山本さんのjavaで書かれたTripleStore探索コードを実行するコンテナ作りました🐶
      • docker run -i -t inutano/tripledataprofiler

参考リンク


参加者

  • 片山俊明(DBCLS)
  • 川島秀一(DBCLS)
  • 小林紀郎(理研)
  • 岡別府陽子(MSS)
  • 小寺正明(東工大)1日目のみ参加
  • 戀津魁(理研)
  • 永野朗夫(PENQE)18日のみ
  • 守屋勇樹(DBCLS)19日のみ
  • 時松敏明(DBCLS)19日は15時ごろまで
  • 大田達郎(DBCLS)
  • 千葉啓和(基生研)
  • 森宙史(東工大)2日目は午後から
  • 山中遼太(先端研)
  • 平川英樹(かずさ)18日のみ
  • 市原寿子(かずさ)
  • 高月照江(理研BRC)
  • 桝屋啓志(理研BRC)18日のみ
  • 山田一作(野口研)
  • 藤澤貴智(遺伝研)
  • 有田正規(遺伝研)18日のみ
  • 山本希(東工大)
  • 鈴木真也(東工大)
  • 櫻井望(かずさ)18日のみ
  • 山本泰智(DBCLS)
個人用ツール