SPARQLthon29

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(参加者)
(SPARQLthon グループ)
 
(間の68版分が非表示)
11行: 11行:
=== TPP グループ全体 ===
=== TPP グループ全体 ===
 +
* [[TPP-kurokawa|ゲノム・メタゲノム情報統合による微生物DBの超高度化推進]] (黒川)
* [[TPP-kurokawa|ゲノム・メタゲノム情報統合による微生物DBの超高度化推進]] (黒川)
 +
** MicrobeDB.jp のインターフェイス改良 (岡別府・森)
 +
*** 検索タームが必ずしも引っかからない、もしくはデータのないスタンザが先に表示されているようなケースがある
 +
*** 検索キーワードから、ヒットのあるカテゴリや関連キーワードをサジェストし、該当するスタンザをしぼって表示するような UI
 +
*** さらに次に表示させることが可能なスタンザをサジェストする機能
* [[TPP-sugano|疾患ヒトゲノム変異の生物学的機能注釈を目指した多階層オミクスデータの統合]] (菅野)
* [[TPP-sugano|疾患ヒトゲノム変異の生物学的機能注釈を目指した多階層オミクスデータの統合]] (菅野)
 +
** Ontop 用に[https://github.com/orenogithub/BH14.14/blob/master/ontology/ontop_dbtss.obda マッピングファイル]を作成中 (河野)
 +
*** D2RQ のように[https://github.com/orenogithub/BH14.14/blob/master/bin/ontop_mapping_generator.rb 自動で RDB スキーマからマッピングファイルを生成するツール]を作成中
 +
** [[D2RQvsONTOP|D2RQとontopのSQLクエリ比較]]
 +
*** D2RQ用[https://github.com/orenogithub/BH14.14/blob/master/ontology/d2rq_dbtss.ttl マッピングファイル]
* [[TPP-tabata|植物ゲノム情報活用のための統合研究基盤の構築]] (田畑)
* [[TPP-tabata|植物ゲノム情報活用のための統合研究基盤の構築]] (田畑)
 +
** BH14.14で実施した作業の続き
 +
*** 植物関連学会ですすめている用語(辞書)整備のためのプラットフォーム作り
 +
*** 複数名での編集履歴が共有可能な作業プラットフォーム(→Wikiページ)
 +
*** 機能拡張モジュールが沢山提供されているMediaWikiを1.24.1を採用
 +
*** 国立情報学研究所から公開されているツールを利用
 +
**** 辞書ファイルに基づき1用語あたり1Wikiページを生成できるツール「dicsync」
 +
**** http://dictionpedia.ex.nii.ac.jp/index.php?FrontPage, 相澤彰子, 北本朝展, 2007
 +
**** 開発者に連絡をとって、サンプルファイルを取得できるようになった
 +
**** 本来設定に使用したいphpファイルを読み込ませるだけで画面に何も表示されなくなったりする状況
 +
***** → phpの教科書で内容を確認しながら作業を進めている状態
* [[TPP-masuya|生命と環境のフェノーム統合データベース]] (桝屋)
* [[TPP-masuya|生命と環境のフェノーム統合データベース]] (桝屋)
 +
** [[BH14.14/genomeRDF]] の続きでバイオバンク系の RDF 化、Bio2RDF の利用 (高月)
 +
*** JCM 菌株の培養条件や培地などの RDF を微生物統合チームと統合 (高月・森)
 +
*** Bio2RDF ダウンロードデータをローカルの Virtuoso にインポートして MGI 関連部分のデータを検証 - MGI は daily 更新だが Bio2RDF の更新頻度は低いので [https://github.com/bio2rdf/bio2rdf-scripts/tree/release3/mgi コンバータ] をローカル実行する? (高月)
* [[TPP-arita|生物種メタボロームモデル・データベースの構築]] (有田)
* [[TPP-arita|生物種メタボロームモデル・データベースの構築]] (有田)
* [[TPP-kanehisa|ゲノムとフェノタイプ・疾患・医薬品の統合データベース]] (金久)
* [[TPP-kanehisa|ゲノムとフェノタイプ・疾患・医薬品の統合データベース]] (金久)
20行: 42行:
* [[TPP-nakamura|蛋白質構造データバンクの高度化と統合的運用]] (中村)
* [[TPP-nakamura|蛋白質構造データバンクの高度化と統合的運用]] (中村)
* [[TPP-narimatsu|糖鎖統合データベースおよび国際糖鎖構造リポジトリの開発]] (成松)
* [[TPP-narimatsu|糖鎖統合データベースおよび国際糖鎖構造リポジトリの開発]] (成松)
 +
** [[BH14.14/compound]] の続きで、単糖を103個も持つような構造検索の SPARQL (A4 で 50 ページになるようなもの) をどう検索するか
 +
*** [[SPARQLthon29/virtuoso]](関係あるかも、無いかも)
 +
** [http://www.rings.t.soka.ac.jp/wakate/glycohackathon2015.html  糖鎖ハッカソン] 3/10-13 @ 産総研(つくば)で開催
 +
** GlyTouCan を3月リリース予定(現状RDB版をRDFとして公開予定)(木下)
 +
** Java で SPARQL を生成するフレームワークと、RDF を入力して transform/集計 した RDF を出力するようなバッチ処理を実装中 (青木)
 +
** WURCS の RDF を使った部分構造検索のための SPARQL クエリを作成中 → これをもとに Java で SPARQL 自動生成 (新町)
 +
** WURCS 書式のバージョン2を策定中、対応する Java ライブラリを作成中 (松原)
 +
** 糖鎖構造をSPARQLで検索するためのデータ作成 [[SPARQLthon/glycan/wurcsRDF]](山田)
各データベースの該当分野とモデル図
各データベースの該当分野とモデル図
27行: 57行:
=== SPARQLthon グループ ===
=== SPARQLthon グループ ===
 +
 +
* DBCLS
 +
** [[BH14.14/genomeRDF/RefEx]] の続きで RefEx の RDF 化とユースケース (小野・坊農)
 +
*** RefEx を作成するときに捨てていた情報を拾い直して、川島さんと RDF 化するとよさそう
 +
** [[BH14.14/Docker]] の続きで、何を Docker 化するのがよいかユースケース (仲里・[http://bonohu.jp/blog/2015/02/13/sparqlthon29/ 坊農])
 +
*** RefEx で生データを公共DBから取得する際に、データの正規化を Docker コンテナ化すると透明性が確保できそう
 +
** [[BH14.14/compound]] の続きで、天然化合物の標準化と RDF 化 (時松)
 +
*** 代謝産物(アルカロイド)の骨格情報の文献からの収集(継続)
 +
*** 代謝産物(アルカロイド)の骨格情報の階層ファイルの作成(継続)
 +
**** 地道な作業が続いているが、方向性が見えてきた
 +
** GGGenome の更新作業と利用規程などの整備 (内藤)
 +
*** Terms of use は頻繁に変更できないため完成してから公開予定
 +
*** TogoGenome の refseq.fasta を taxonomy domain ごとに分けるほうがよいかも<br>→ http://togogenome.org/download を使うことができそう (内藤・片山)
 +
** 昨日 (2015/2/11) リリースされた Virtuoso 7.2 の調査 (山本)
 +
*** [http://virtuoso.openlinksw.com/dataspace/doc/dav/wiki/Main/VOSNews#2015-02-11%20--%20Virtuoso%20Open-Source%20Edition%207.2.0%20Released リリースノート] によると、ついに URI 関数が実装されていた、R2RML 関連のバグ fix、マルチバイトの扱い(がよくなっているかも)
 +
*** [http://wiki.lifesciencedb.jp/mw/BH12.12/SPARQL11test#Virtuoso_.28VOS.29_7.2.0_on_Linux SPARQL 1.1準拠状況テスト] の結果も参照
 +
*** [https://twitter.com/yayamamo/status/436091479669219328 SERVICE句を有効化] する設定は v7.2 でも GUI での作業が必要
 +
** [[BH14.14/TogoGenome]] の続きで、insdc2ttl, jbrowse の更新など (守屋・岡別府・片山)
 +
*** Assembly report や SRA metadata などからリンク情報を抽出した RDF linkset を生成するフローの運用を相談した(グループ名をつける -- [[EdgeStore2.0]]) (桐山・小澤・藤澤・大田・川島・片山)
 +
*** TogoGenome 検索結果のタブ化がほぼ完了
 +
*** TogoStanza JS 版は今月中くらいにテスト版利用可能予定
 +
*** TogoGenome で遺伝子のユニークな ID を <refseq_id>:<locus_tag|gene> にしていたが、ユニークでないことがわかったので、RDF では location も含めた内部 ID で管理し、UI としては <taxonomy_id>:<locus_tag|gene> を使うように戻す(TogoGenome/TogoStanza アプリケーションとして BioProject もしくは Assembly report の Assemble ID で切り替えてみせるようにする or UniProt の taxonomy ID が strain についてもユニークについていればそちらを使う)
 +
*** TogoGenome のテキスト検索は gene, org, env, phenotype のレポートタイプごとに検索対象のデータを SPARQL で生成しておくことに
 +
*** TogoStanza ポータルに利用する metadata.json (LD) については永野さんがドラフトを作成し、欠けているメタデータは3末をメドにスタンザ開発者が記述する
 +
 +
* DDBJ
 +
** [[BH14.14/genomeRDF]] の続きで、RNA-Seq の RDF 化 (藤澤)
 +
*** 進捗を整理し、菅野グループと共通の RDF モデルを利用するということになった (河野・森・藤澤)
 +
 +
* [http://toxico.nibio.go.jp/ Open TG-GATEs]
 +
** [[BH14.14/genomeRDF/toxico]] の続きで RDF 化 (伊藤)
 +
*** SPARQLthon29での進捗 -- [[SPARQLthon29/toxico]]
 +
 +
* SPARQL builder
 +
** [[BH14.14/SPARQLBuilder]] の続きで投稿論文の準備 (戀津・山口)
 +
** 投稿準備ほぼ済&サービスサイトリニューアル [http://www.sparqlbuilder.org/ SPARQL Builder]
 +
 +
* [[がんゲノム]]
 +
**  http://icgc.link/ [https://www.dropbox.com/s/15w93on6xdfu3ya/icgclink_slides.pdf?dl=0 Slide](山中 [http://kashiwanoha-marathon.com/ 募集中])
 +
** サーバー上の JavaScript のクライアントで '''CONSTRUCT 結果をダンプ'''して、再度 Virtuoso にロード(完了)
 +
*** がんゲノムプロジェクトをスクリプトで追加できるようにして、登録ドナー数を 30 から 530 まで増やした(全部で 12,000)
 +
*** 現在 530 ドナーで 18M トリプルなので、12,000 ドナーで 400M トリプル。もう少しリッチにしても 1B に満たないと推測
 +
** '''DirectMapping定義ファイルを修正'''して公開に適したRDFデータセットを作成する(残念ながらここまで進まず、進捗なし)
 +
*** トリプル追加(class, type, domain, range)、prefix変更に伴うアプリのsparql変更
== 参考リンク ==
== 参考リンク ==
36行: 110行:
* 片山俊明 (DBCLS)
* 片山俊明 (DBCLS)
* 川島秀一 (DBCLS)
* 川島秀一 (DBCLS)
-
* 小林紀郎 (理研)
 
* 戀津魁 (理研)
* 戀津魁 (理研)
* 小澤健太郎 (SGI)
* 小澤健太郎 (SGI)
42行: 115行:
* 守屋勇樹(DBCLS)
* 守屋勇樹(DBCLS)
* 藤澤貴智(遺伝研)
* 藤澤貴智(遺伝研)
-
* 大田達郎 (DBCLS)
+
* 大田達郎 (DBCLS) 両日共PMのみ
-
* 永野朗夫(PENQE)
+
* 永野朗夫(PENQE)13日のみ
* 時松敏明(DBCLS)12日のみ
* 時松敏明(DBCLS)12日のみ
* 山本泰智 (DBCLS)
* 山本泰智 (DBCLS)
* 山田一作 (野口研) 12日PM:別室にて会議
* 山田一作 (野口研) 12日PM:別室にて会議
 +
* 坊農秀雅 (DBCLS)
 +
* 小野浩雅 (DBCLS) 12日のみ
 +
* 市原寿子 (かずさDNA研)
 +
* 桝屋啓志 (理研BRC)13日のみ
 +
* 高月照江 (理研BRC)
 +
* 仲里猛留(DBCLS) 12日のみ
 +
* 岡別府陽子(MSS)
 +
* 森宙史(東工大)13日のみ
 +
* 山本希(東工大)13日のみ
 +
* 櫻井望(かずさDNA研)たぶん13日にちょこっと
 +
* 内藤雄樹(DBCLS)
 +
* 木下聖子(創価大)12日のみ
 +
* 青木信行(創価大)12日のみ
 +
* 新町大輔(創価大)12日のみ
 +
* 中尾光輝(エーザイ)
 +
* 山中遼太(先端研)13日のみ
 +
* 山口敦子 (DBCLS)
 +
* 松原正陽(野口研)
 +
* 河野信(DBCLS)

2015年2月13日 (金) 09:51時点における最新版

第29回 SPARQLthon を下記日程で開催したいと思います。

目次

開催概要

プロジェクト

TPP グループ全体

各データベースの該当分野とモデル図

SPARQLthon グループ

  • DBCLS
    • BH14.14/genomeRDF/RefEx の続きで RefEx の RDF 化とユースケース (小野・坊農)
      • RefEx を作成するときに捨てていた情報を拾い直して、川島さんと RDF 化するとよさそう
    • BH14.14/Docker の続きで、何を Docker 化するのがよいかユースケース (仲里・坊農)
      • RefEx で生データを公共DBから取得する際に、データの正規化を Docker コンテナ化すると透明性が確保できそう
    • BH14.14/compound の続きで、天然化合物の標準化と RDF 化 (時松)
      • 代謝産物(アルカロイド)の骨格情報の文献からの収集(継続)
      • 代謝産物(アルカロイド)の骨格情報の階層ファイルの作成(継続)
        • 地道な作業が続いているが、方向性が見えてきた
    • GGGenome の更新作業と利用規程などの整備 (内藤)
      • Terms of use は頻繁に変更できないため完成してから公開予定
      • TogoGenome の refseq.fasta を taxonomy domain ごとに分けるほうがよいかも
        http://togogenome.org/download を使うことができそう (内藤・片山)
    • 昨日 (2015/2/11) リリースされた Virtuoso 7.2 の調査 (山本)
    • BH14.14/TogoGenome の続きで、insdc2ttl, jbrowse の更新など (守屋・岡別府・片山)
      • Assembly report や SRA metadata などからリンク情報を抽出した RDF linkset を生成するフローの運用を相談した(グループ名をつける -- EdgeStore2.0) (桐山・小澤・藤澤・大田・川島・片山)
      • TogoGenome 検索結果のタブ化がほぼ完了
      • TogoStanza JS 版は今月中くらいにテスト版利用可能予定
      • TogoGenome で遺伝子のユニークな ID を <refseq_id>:<locus_tag|gene> にしていたが、ユニークでないことがわかったので、RDF では location も含めた内部 ID で管理し、UI としては <taxonomy_id>:<locus_tag|gene> を使うように戻す(TogoGenome/TogoStanza アプリケーションとして BioProject もしくは Assembly report の Assemble ID で切り替えてみせるようにする or UniProt の taxonomy ID が strain についてもユニークについていればそちらを使う)
      • TogoGenome のテキスト検索は gene, org, env, phenotype のレポートタイプごとに検索対象のデータを SPARQL で生成しておくことに
      • TogoStanza ポータルに利用する metadata.json (LD) については永野さんがドラフトを作成し、欠けているメタデータは3末をメドにスタンザ開発者が記述する
  • DDBJ
    • BH14.14/genomeRDF の続きで、RNA-Seq の RDF 化 (藤澤)
      • 進捗を整理し、菅野グループと共通の RDF モデルを利用するということになった (河野・森・藤澤)
  • がんゲノム
    • http://icgc.link/ Slide(山中 募集中
    • サーバー上の JavaScript のクライアントで CONSTRUCT 結果をダンプして、再度 Virtuoso にロード(完了)
      • がんゲノムプロジェクトをスクリプトで追加できるようにして、登録ドナー数を 30 から 530 まで増やした(全部で 12,000)
      • 現在 530 ドナーで 18M トリプルなので、12,000 ドナーで 400M トリプル。もう少しリッチにしても 1B に満たないと推測
    • DirectMapping定義ファイルを修正して公開に適したRDFデータセットを作成する(残念ながらここまで進まず、進捗なし)
      • トリプル追加(class, type, domain, range)、prefix変更に伴うアプリのsparql変更

参考リンク


参加者

  • 片山俊明 (DBCLS)
  • 川島秀一 (DBCLS)
  • 戀津魁 (理研)
  • 小澤健太郎 (SGI)
  • 伊藤真和吏 (NIBIO)12日のみ
  • 守屋勇樹(DBCLS)
  • 藤澤貴智(遺伝研)
  • 大田達郎 (DBCLS) 両日共PMのみ
  • 永野朗夫(PENQE)13日のみ
  • 時松敏明(DBCLS)12日のみ
  • 山本泰智 (DBCLS)
  • 山田一作 (野口研) 12日PM:別室にて会議
  • 坊農秀雅 (DBCLS)
  • 小野浩雅 (DBCLS) 12日のみ
  • 市原寿子 (かずさDNA研)
  • 桝屋啓志 (理研BRC)13日のみ
  • 高月照江 (理研BRC)
  • 仲里猛留(DBCLS) 12日のみ
  • 岡別府陽子(MSS)
  • 森宙史(東工大)13日のみ
  • 山本希(東工大)13日のみ
  • 櫻井望(かずさDNA研)たぶん13日にちょこっと
  • 内藤雄樹(DBCLS)
  • 木下聖子(創価大)12日のみ
  • 青木信行(創価大)12日のみ
  • 新町大輔(創価大)12日のみ
  • 中尾光輝(エーザイ)
  • 山中遼太(先端研)13日のみ
  • 山口敦子 (DBCLS)
  • 松原正陽(野口研)
  • 河野信(DBCLS)
個人用ツール