SPARQLthon41

提供:TogoWiki

移動: 案内, 検索

第41回 SPARQLthon を下記日程で開催したいと思います。

目次

開催概要

  • 開催期間:2016年 2月16日(火) 10:00 〜 17日(水) 18:00
  • 開催場所:理化学研究所 和光地区 統合支援施設 2F 大会議室
  • アクセス:http://www.riken.jp/access/wako-map/ (建物番号 C61)
  • 構内徒歩参考写真 : /mw/SPARQLthon30/access
    • 構内入り口の守衛所にて、カードキーをお受け取りください。守衛さんのところで名刺を渡すと事務処理が簡単に終わります。
    • 所内の食堂は交通系ICカード(Suica等)でのみ支払可能です。
  • 開催連絡:http://groups.google.com/group/biohackathon-jp メーリングリストにて
  • ネットワーク: 理研ゲスト用無線LANサービス、Eduroam
  • 開催期間中にスパコンの見学等のイベントを行います。

プロジェクト

TPP グループ全体

SPARQLthon グループ

  • KEGG OC RDF(仮) データ更新(守屋)
  • JSTシソーラスオントロジー化試験作業(建石・山本・櫛田)
    • 現状の説明
      • JSTシソーラス「関連語(RT)」リンクの整理がしたい
        •  上位下位関係:IS-AとPART-OF混在
        •  RT:IS-AやPART-OFも含まれている
        • シソーラスには語義は書いていない
      • LIFE-SCIENCEに関係する語について関係を整理し、その後その他の分野に広げる
        • 4万語のうちLIFE-SCIENCE11000語
      • 今年度中は1200語について予備作業→このために法造(大阪大学)を使う
        • JSTシソーラスを法造で読めるように法造をカスタマイズ
        • RTをIS-A, PART-OF, 属性, 機能, その他に分けることにする
        • すでにあるIS-A階層は今年度中は変えない
        • 語を追加したり削除したりもしない
    • 今後の作業の進め方に対する案
      自動化できるか
      シソーラス構築自動化の目的として(1) 語彙はすでにあって、関係性を学習したい(今のRT見直しを自動化する)、(2) 新規語彙に対して、関係性とともに学習したい、の2つがあると思われる。
      (1)の自動化案として、単純には
      1. JSTシソーラスと独立に作られたシソーラスTがあるとする。
      2. Tは上位下位概念にもとづく階層構造になっているとする。
      3. Tの語で、直接の上位下位ペアになっている語A,Bに対しA,BをJST大規模辞書で検索するとJSTシソーラス上の優先語(a,bとする)が見つかる(はず)
      4. a,bのJSTシソーラス上での関係がRTだったらIS-Aに変える(候補として、あとで人が見直す?)
      が考えられる。ただし、問題として
      • Tの階層を手放しで信じていいか(例:MeSH A08の下  →IS-AではなくPart-Ofではないか)
      Nervous System [A08]
      Central Nervous System [A08.186]
      Brain [A08.186.211]
      Blood-Brain Barrier [A08.186.211.035]
      Brain Stem [A08.186.211.132] +
      Gray Matter [A08.186.211.168]
      White Matter [A08.186.211.204]
      Cerebral Ventricles [A08.186.211.276] +
      Limbic System [A08.186.211.464] +
      Prosencephalon [A08.186.211.730] +
      Meninges [A08.186.566] +
      Spinal Cord [A08.186.854] +
      • IS-A(Part-of含めある種の上位下位)以外の関係性がついている大規模シソーラスはあるか
        • WordNet/FrameNet:専門用語が少ない
        • 各分野のオントロジー:分野による。ライフサイエンスは比較的オントロジー化が進んでいる分野なので、オントロジーに頼ったやり方ではオントロジーが整備されていない分野に拡張しづらい?
      • ライセンス?
      などがあり得ます。
      JST外のシソーラス/抽出ツール(見つけたもの)
      1)上位下位関係抽出ツール Version1.0
      Wikipediaから箇条書き(「種類」セクションなど)、定義文の解析、カテゴリ階層を利用してIS-A Hierarchyを抽出するツール(2010-10-01、GPLライセンス)
      2)ALIGNフォーラム(高度言語情報融合フォーラム)が言語資源を持っている
      • (A-4)上位語階層データ
      • (A-9)基本的意味関係の事例ベース
      • (D-2) 意味的関係抽出サービス
       など使えるかも
      1)のWikipedia上位下位関係抽出ツールもALIGNからDL可
      3)日本語化したMeSH
      Life Science DictionaryにMeSHとの対応関係がついている。
      • LSD自身はNon Derliverable (改変不可)(個別にライセンス契約をする可能性はある)
      4)日本語Wordnet
      専門用語が少ない懸念あり
      5)特許の分類コードがオントロジー化されていないか?
      進行中らしい研究あり (難波他2014
      F-タームをオントロジー化するため、パイロットスタディを情報科学分野で行っている。成果オントロジーは公開予定とのこと(現在はまだ見つからない)
  • DBpedia Docker (加藤)
    • 目的
      • DBpedia JapaneseのインフラをDockerベースにしたい
      • 手元で試したい人向けへ提供したい (vagrantも検討すべきか)
    • 進捗
    • ツール検討
      • ビルド: 直接かPacker経由か ?
      • プロビジョニング: Dockerfile直接 or Chef ?
      • オーケストレーション: いまだとdocker-composer + docker-swarmが良い?
      • とりあえず単体でVirtuoso + dbpedia_dav.vad + DBpedia Japaneseのデータをbuildできるようにする.
      • 参考: Bio-Virtuoso (yayamamo)
  • Nikkaji-KNApSAcK 化合物間のID対応問題解決のための検討(山田、時松)
    • SPARQLによるInChIKey部分文字列検索による日化辞とKNApSAcKのID取得(山田)
    • InChIKey部分文字列を用いた Same Connectivityリスト取得による、Nikkaji-KNApSAcK ID対応キュレーションの検討(時松)
  • IntegbioDBcatalogとカタログ上でDBにつけるタグのRDF化(信定)
    • タグのRDF化(試行)
@prefix skos: <http://www.w3.org/2004/02/skos/core#>.

<http://integbio.jp/dbcatalog/resource/theme#tag>
    a skos:ConceptScheme;
    skos:prefLabel "tag"@en;
    skos:prefLabel "タグ"@jp.

<http://integbio.jp/dbcatalog/resource/tag/0001>
    a skos:Concept;
    skos:prefLabel "Genome/Gene"@en;
    skos:prefLabel "ゲノム/遺伝子"@jp;
    skos:description "DB for genomes or genes"@en;
    skos:description "ゲノムや遺伝子関連のDB"@jp;
    skos:comment "-"@en;
    skos:comment "-"@jp.
  • DDBJ BioSample submission/validaton用OWL拡張(藤澤)
    • 定義するClass、Propertyをリストアップ
    • 制約クラスのデータモデルを設計
    • これから、DDBJ管理の Attribute, Package定義情報xlsxを入力としたコンバーターの開発
  • SPARQL Builder(山口 小林 戀津)
    • フェデレート検索対応へ向けた内部構造設計について議論
  • オープンサイエンスアワード (🐶)
    • 🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋 SPARQLthonでの開発物をノミネートしませんか(してください)!! 🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋🙋
    • 拡散にご協力を! :)
    • 金曜の夕方にいろんなMLに投げようと思っています、宣伝先にいいMLがあればぜひ教えてください!
      • 今のところのリスト
        • bioinformatics-jp
        • ngs-field
        • open-bio
        • bioinfowakate
    • 表彰イベントをBH15.15の最終日にやります
      • BH15.15の3日間で1番進捗があった人を表彰するスプリンター賞も用意します (予定)
  • 統合TVの検索キーワード用固定URL機能 実装 (小野)
  • 新着論文レビュー 著者用アンケート (飯田・小野)
  • RefEx FANTOM5 CAGE RDF データ のビューア作成プロジェクト (川島・岡別府・大石・小野)
    • 岡別府さんによるSPARQL指南
    • Row RDF を使って、Stanza 形式で作れそう
  • TogoGenome 比較ゲノム機能設計 (片山・川島・永野)
    • 比較ゲノム機能の画面設計とSPARQLクエリの開発
  • トリプルストアのSPARQL1.1対応調査 BH12.12/SPARQL11test (山本)
  • 非RDF構造化データを視覚的にオントロジーにマッピングしてRDF化するツール Karma の調査 (山本)
    • Windows 10にvagrantを用いてインストールを試みたが、デプロイは問題なくできたものの、なぜかアクセスできない。→ 後日問題解消
  • 久々にData Hub LOD Validatorをチェック。
    • 色々と問題点が指摘されているが、具体的にどう対処すればよいのかが不明。

参考リンク


参加者

  • 片山俊明 (DBCLS)
  • 川島秀一 (DBCLS)
  • 守屋勇樹 (DBCLS)
  • 小林 紀郎 (理研)
  • 時松敏明 (DBCLS)
  • 坊農秀雅 (DBCLS)
  • 大田達郎 (DBCLS)
  • 山口敦子 (DBCLS)
  • 戀津魁 (理研)
  • 山本泰智 (DBCLS)
  • 千葉啓和(基生研)17日のみ
  • 山田一作(野口研究所)
  • 大石直哉(DOGRUN)
  • 岡別府陽子(MSS)
  • 永野朗夫(PENQE)
  • 坂井美津保(PENQE)16日のみ
  • 加藤文彦 (ROIS)
  • 仲里猛留(DBCLS)
  • 山中遼太(Oracle)16日のみ
  • 信定知江(NBDC)16日のみ 16時半まで
  • 小野浩雅(DBCLS)
  • 藤澤貴智(遺伝研)
  • 桝屋啓志 (理研 BRC)
  • 高月照江 (理研 BRC)
  • 田中聡 (Trans-IT)
  • 櫛田達矢(NBDC)
  • 建石由佳(NBDC)
  • 新町大輔(創価大)
  • 青木信行(創価大)
  • 松原正陽(野口研究所)
  • 森田巧 (保健同人社)ご報告にて 16日PMのみ
  • 森宙史(東工大)17日のみ
  • 飯田啓介(DBCLS)
  • 森井陽子(理研BSI)
/mw/SPARQLthon41」より作成