SPARQLthon31

提供:TogoWiki

移動: 案内, 検索

第31回 SPARQLthon を下記日程で開催したいと思います。

目次

開催概要

  • 開催期間:2015年 4月2日(木) 10:00 〜 3日(金) 18:00 (4日:遺伝研講演会
  • 開催場所:遺伝学研究所 生命情報研究センター棟 (DDBJ棟) 4F会議室 (W403-405) + 生命情報研究棟西棟 DBCLS
  • アクセス:http://dbcls.rois.ac.jp/access
    • 遺伝研行きのシャトルバスがあります。乗り口は北口から出てロータリー向かって左手です。
    • 新幹線ーNIGシャトルバス接続情報
    • 9:30出発のシャトルバスに乗ってお越しいただくと、DDBJ棟までご案内します。
      • 関東方面からお越しの方は こだま639号 (東京8:26発、品川8:34発) がスムーズです。
      • 関西方面からお越しの方は こだま632号 (名古屋7:29発) がスムーズですが、朝が早いので前泊する方が楽です。
  • お昼について
    • 所内には小さい食堂がありますが、売店などはありません。お弁当などをお持ち頂くことをお勧めします。
  • 夕食について
    • 初日の夕食は参加者のみなさまで三島駅前に出かける予定です。
  • ホテルについて
  • 開催連絡:http://groups.google.com/group/biohackathon-jp メーリングリストにて

プロジェクト

課題出し → http://tinyurl.com/sparqlthon31-hanami

TPP グループ全体

各データベースの該当分野とモデル図

SPARQLthon グループ

  • TogoGenome
    • テキスト検索APIの仕上げ (岡別府・片山)
    • 遺伝子ID (URI) をどうするか (岡別府・藤澤・川島・片山・守屋)
    • GA4GH - graph reference genome の RDF 表現 (片山・大田・山本)
    • TogoStannza
      • JS 版のハンズオン (片山)
      • ポータルサイト手直し(永野)
      • 可視化ライブラリ(永野)
  • オーソログ(千葉)
    • 他のオーソログの DB の RDF 化 (OMA)
    • 5月にオーソログミーティングがスペインで
  • SPARQLクライアント(千葉)
  • BioSample - BioProject - SRA metadata
    • 前回のelasticsearchのやつのつづき (🐶)
      • elasticserach触らず…。
      • QCとかのメタデータの処理を高速化するためにDDBJスパコンハックしてました
        • 問題
          • IOが遅いせいでfastqへの変換とかが遅い
          • すぐquotaにひっかかる
        • 解決策
          • /ssd がマウントされてるノードに行っていったんssdに載せることでIOが遅いのを回避
          • フラットファイルでなくgzipでファイルのやりとりをしてquotaに引っかからないようにする
        • 超解決策
          • fastq-dump --stdout --gzip で標準出力に出してパイプで繋いでストリーミングで次のコマンドに投げるとか
            • 問題
              • pairedなデータのときに各リードデータを標準出力に分けて出せない
              • single endと分かっているデータに関してはこの技が使えそう。
    • NBRC サンプルへのTaxonomy ID 付け(川島)
    • GenomeRefineのメタデータ入力拡張、Submitter,BioProject相当の定義情報と出力RDFデザイン(藤澤)
  • LinkSet-RDF
    • データセットの daily 取得と変換のフローの共有 (藤澤・小澤)
      • rsync + もろもろのハックで更新が10分以内に
    • 対応すべきデータセットの検討 (藤澤・片山)
    • LinkDB の RDF デザインの見直し <-- EdgeStore を参考にontologyを整備することに
      • Identifiers.org URI 間のリンクを forward/reverse で定義+オリジナルDBへのリンク
      • DB間のリンクはVoID+αで定義
  • SPARQL 記述補助(守屋)
  • SPARQL Builder(山口,古崎)
    • エンジン改良(特にパス探索まわり)
      • ユーザがstart class を指定したとき,end class の候補を裏でパス探索してから出すように変更
        • 実装して速度的に問題なかったので,本番環境に反映させた
      • パス探索の枝刈りの効果を客観的に評価し,枝刈りのパラメータを最適化する
        • 実験の設計&実験環境を実装中
          • パスごとに (パスのコスト値, 解のあるなし) を計算し,コスト値の閾値を最小〜最大にしたときのF-measureを計算することで,F-measureを最大化する閾値とその最大値を得る
          • ASK を使った枝刈りは遅すぎる場合が時々あって諦めました

例えば

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
ASK { 
?n1 rdf:type <http://www.biopax.org/release/biopax-level3.owl#Dna> .
?n2 rdf:type <http://www.biopax.org/release/biopax-level3.owl#Provenance> .
?n3 rdf:type <http://www.biopax.org/release/biopax-level3.owl#Protein> .
?n1 ?p1 ?n2 .
?n3 ?p2 ?n2 .
}

reactome で上記のようなシンプルなクエリが10分たっても帰ってきません. Virtuosoの場合は下記のようにすることで高速化が望めます。(山本)

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
ASK { 
?n1 rdf:type ?nt1.
?n2 rdf:type ?nt2.
?n3 rdf:type ?nt3.
 ?n1 ?x ?n2 .
?n3 ?y ?n2 .
VALUES (?nt1 ?nt2 ?nt3) {
  (<http://www.biopax.org/release/biopax-level3.owl#Dna> 
   <http://www.biopax.org/release/biopax-level3.owl#Provenance> 
   <http://www.biopax.org/release/biopax-level3.owl#Protein>
   )}
}
    • 今後課題だし federated search 対応など
      • 単純クエリ大量vs複雑クエリ少量
      • ファイルを読み込んでオンメモリvsトリプルストア
      • subClassOf 問題 SPARQL1.1 の機能を使って解決する?
  • PIERO reaction ontology (小寺、時松、守屋)
    • http://reactionontology.org/
    • データのキュレーション
    • 化合物部分構造データのRDF化とvirtuoso endpointでの動作確認
  • 天然物 (山田、時松)
    • 今後の方針の検討(アルカロイド整理)
      • 整理するアルカロイドの選定について
      • Terpenoid alkaloids (BC 5) 152(10) & 220(8)
        • Mol.inf page 798 (2014)
      • The Alkaloids, Chapter 25 The Biosynthesis of Isoquinolines (1954) Volume 4, 1-6.
      • The Alkaloids, Chapter 3 - Alkaloids Containing an Isoquinolinequin one Unit (1999) Volume 53, 119-238.
  • 上原 (SGI/京都)
    • 化研 LinkDB RDF/endpoint + スタンザ
  • 小野・榊原 (協和発酵キリン@三島研)
  • 大石 (Dogrun)
    • TogoTV, SRA ゆくゆくはSPARQLを知らないといけない
  • Docker
  • 中岡 (IMS/横浜理研)
    • Galaxy ツールのドキュメント作成、ゆくゆくはSPARQLを知らないといけない
    • RNA-Seq のパイプラインの開発
  • RDFガイドライン?
  • 櫛田(NBDC)
    • 研究データへのDOI登録実験プロジェクトの紹介
      • https://japanlinkcenter.org/top/
      • 2015年度に予定している研究データに対するDOI本番登録に備え、必要な作業の確認、課題抽出、練習等を行うための作業を実施中(参画機関:NII、AIST、NICT、NIMS、理研BSIなど)
      • NBDCではDBアーカイブに登録されているデータセットに対してDOIを付与することを検討。
      • 研究データ(実験データ、観測データ、計測データなど広い意味での)研究ゼータ全般が対象。
      • 検討中の課題
        • 運用フロー
        • アクセス持続性の保証
        • DOI登録対象の粒度(データセット単位、測定レコード単位、図表単位、プロジェクト単位? 追加・更新した(バージョンの異なる)データに別のDOIを付与するか)
        • DOIの活用
  • がんゲノム(山中)
    • Data Portal に OWL ファイルを公開する <-- 定義のもれがないかなど、川島さん他に伺う
    • Data Portal に RDF データを公開する <-- D2R & AWS 大きめインスタンスで全て変換する
      • 今は DirectMapping で定義して D2R で変換していますが、R2RML のよい実行エンジンはありますか?
    • AP サーバー(node.js)を公開する <-- SPARQL インジェクション対策 & 実行結果のキャッシング
  • SPARQL1.1対応テスト(山本)

参考リンク


参加者

  • 片山俊明 (DBCLS)
  • 川島秀一 (DBCLS)
  • 坊農秀雅 (DBCLS)
  • 内藤雄樹 (DBCLS)
  • 小野浩雅 (DBCLS)
  • 山本泰智 (DBCLS)
  • 守屋勇樹 (DBCLS)
  • 三嶋博之 (長崎大学・人類遺伝学)
  • 山口敦子 (DBCLS)
  • 小澤健太郎 (SGI)
  • 上原英也 (SGI)
  • 大田達郎 (DBCLS)
  • 山中遼太 (先端研)
  • 榊原雄太 (協和発酵キリン)
  • 小野擁子 (協和発酵キリン)
  • 永野朗夫 (PENQE)
  • 時松敏明 (DBCLS)
  • 岡別府陽子(MSS)
  • 大石直哉(DOGRUN)
  • 古崎晃司(大阪大学)
  • 千葉啓和(基生研)
  • 藤澤貴智(遺伝研)
  • 高月照江(理研BRC)
  • 山田一作(野口研)
  • 森宙史(東工大)2日午後のみ
  • 小寺正明(東工大)2日のみ
  • 有田正規(遺伝研)
  • 中村保一(遺伝研)
  • 望月孝子 (遺伝研)
  • 櫛田達矢(NBDC)2日午後のみ
  • 市原寿子(かずさDNA)
  • 中岡慎治(理研IMS)

  • 櫻井望(かずさDNA)不参加すみません
/mw/SPARQLthon31」より作成