SPARQLthon33

提供:TogoWiki

移動: 案内, 検索

第33回 SPARQLthon を下記日程で開催したいと思います。

目次

開催概要

プロジェクト

TPP グループ全体

  • ゲノム・メタゲノム情報統合による微生物DBの超高度化推進 (黒川)
    • Microbe DB で利用する Genome RDF を(TogoGenomeゲノムセットとMBGDのオーソログデータとの対応)を確定してトーゴーの日に備える
    • MeGAP の完成度を高める - アップロードする配列に関するメタデータ(温度など DRA で必要な項目 etc.)を入力可能にした (森)
    • 病原性遺伝子を RDF データに追加して、どの菌株に所属するかを DB 化 (山本)
  • 植物ゲノム情報活用のための統合研究基盤の構築 (田畑)
    • トマトの物理地図/マーカー/ゲノム情報 (GFF3) を jBrowse で表示する (BioInterchange 1.0のGFF3→RDFコンバータのfixが必要)
      • PGDBj/SGM のマーカーデータの FALDO を使った RDF 化 → jBrowse で検証 (市原/片山)
    • 植物病害キュレーションの自動化に PubAnnotation/PubDictionaries/TextAE を利用するための打ち合わせ (市原)
  • 生命と環境のフェノーム統合データベース (桝屋)
    • マウスゲノムの NGS データのメタデータを作成
      • SRA の RDF スキーマを検討し、XMLからRDF変換したミニマムなスキーマを試作するとに (桝屋/大田/川島/藤澤/森/小林)
    • WDCM http://www.wdcm.org/ - ATCC 以外のほとんどの菌株コレクションが加盟しているコンソーシアム
      • これまでに作成した RDF / オントロジーを WDCM で採用できるとよい (川島/森/桝屋)
      • アジアのリソースセンター ANRRC から RDF で情報共有を始め、世界の菌株コレクション WFCC にプッシュする方向で
    • マウスの細胞のデータの RDF 化 (高月)
  • 糖鎖統合データベースおよび国際糖鎖構造リポジトリの開発 (成松)
    • KEGG Glycan の RDF があるという噂は否定された
    • 4万件の糖鎖データに対して、殆どはすぐに終わるが数十件だけ曖昧な糖鎖構造の検索に時間がかかるものがある
      • サブクエリで曖昧でない部分を先にマッチさせておいて、曖昧検索の対象を絞り込む案
  • 生命動態システム科学のデータベースの統合化(大浪)
    • 線虫/ハエ/ゼブラ/一分子動態などの動画から画像処理でエッジ抽出などしたDBのメタデータを RDF で整備
      • 理研のメタデータベースに収録できるように RDF 化の方針が決まった (京田)
      • テストデータを Turtle 形式で出力、理研のメタデータベース(テスト版)に登録した (京田)
  • RDF ポータル
    • データセットのリストの仕方、カテゴリ、つながりなどをどのように表現するか検討 (永野/川島/片山/畠中)
    • データ提出方法について (櫛田)
      • 現状のプラン:FTP サーバにおいていただく
      • 要望:HDD を送りつけたい、取りにきてほしい、WebからHTTPで取っていってほしい
      • 疑問点:
        • 大量の RDF がある場合個別のRDFのメタデータをどのように分けて記述するのがよいか
        • 容量の大きそうなもの TogoGenome, MBGD, Metagenome, ....
        • 理研リソースセンターのデータは商品なので古いデータを放置できないため自動更新できるようにしたい

SPARQLthon グループ

  • お花見メタゲノムのメタデータの整備 (大田)
    • 環境情報をオントロジーにマッピングしたい
    • 緯度経度などから過去の気象情報とマッピング → 完了
    • 表現系の自由記述を標準化
    • 解析パイプラインの Docker 化作業中
  • がんゲノム (山中)
    • D2RQ Mapper の機能追加リクエスト
      • クラス定義 (map:donor a d2rq:ClassMap; d2rq:class <Donor>;)
      • データベースがオフラインでも編集できる?マッピングファイルの読込機能? <-- これらは必要ないと諭された
      • Namespaceとして定義してもマッピングファイルのPrefixに出てこないバグ?(up-ensembl)
    • Portal で発行したクエリがわかるように d3sparql の各グラフに SPARQL 確認ボタンを追加 <-- 未着手(でも、やっぱりこれ欲しい)
    • Bio-Ontology SIG のスライドを作成
  • PIERO(小寺、守屋、時松)/mw/PIERO
    • 酵素反応の部分的な特徴の記述(酵素反応中の化学部分構造変換とその語彙など)
    • データの整備と使用例について
      • RDF化ガイドラインに沿う形に
      • PIERO reaction ontology, PIERO transformation ontology, PIERO substructure ontology の三部構成にする案
      • PIEROオントロジーを表す piero: と、データ間関係を表す piero-link (pink:) に分離する案
    • データベースをどのようにスタンザ等で見れたら嬉しいのか?
      • EC番号(または遺伝子)を入力すると、EC番号だけでは共通点を見いだせないが反応パターン(RPまたはRCまたはRDM)を共有する他のEC番号(または遺伝子)をリストアップする、とか。
  • Docker
    • NGSデータ解析ツールのDocker化とその環境づくり(坊農)
      • DRAに登録されたRNA-seqデータはGEOに入らないものを補完する「発現データ補完計画」
  • NBDC DBカタログ (信定) → SPARQLthon33/DBcatalog
    • ダウンロード可能な DB かどうかなどのメタデータを追記 http://integbio.jp/dbcatalog/?lang=ja
    • 理研メタデータベースでも DB カタログの RDF スキーマを継承しているので今後も揃えたい
      • 理研の RDF データはホスティングも可能 - Ontology/RDFガイドライン標準化委員会
  • DBCLS SRAの遺伝研からAmazonへのマイグレーション (仲里)
  • DB カタログと NGS データを中心に作業 (小林)
  • GGGenome に INSDC 検索を取り込む, AWS で稼働できるか実験 (内藤)
    • AWS上でコンパイルが通らず、諸々検討しているうちに時間切れ(コンパイルできそうな気配はある)。
  • ニッカジのRDFデータの改善準備 (櫛田)
    • InChIの情報のRDFデータに、rdfs:label, dc:identifier, rdf:typeの情報が含まれていなかったため、これをを含む差分のデータを作成(→山田さん用)。次回の更新時にはこれらを反映したファイルを提供予定。
    • 日化辞RDFのアーカイブ英文ページの準備
  • TogoGenome
    • リファレンスとなるゲノムデータセットの完備
      • MBGD で扱っている生物種のうち 28 株が TogoGenome/RefSeq で拾えていなかったが、4 株は RefSeq で obsolete になっており(genome のミスアセンブル等)、残りはマニュアルでは拾えることがわかった(ホワイトリストを作成して更新系に組み込む)。
    • テキスト検索のデプロイ
    • 真核を活かしたスタンザ、比較ゲノムなどトーゴーの日までのゴールを明確化
      • TogoEvolution 遺伝子進化のヒストリ
      • 比較ゲノムのビュー
  • RDFビューワ調査(山口,山本)
    • RDF2Graphの調査(山口)
      • Cytoscape 用の表示スクリプトを生成する Java Application
      • 前提: java 1.8以降, jena (TDB), Cytoscape トリプルストア推奨: fuseki OS推奨: Linux (他のOSだとスクリプトに手を入れる必要がある)
      • 手順:
        • トリプルストアに表示したいデータをロードする(グラフごとの表示なので,他のデータも入っている場合,グラフに分ける)
        • RDF2Graph.jar を動かし,TDBデータベースに表示用データを格納
        • export.sh (TDBやCytoscapeの環境に合わせて書き直す必要あり)を動かし,スクリプト一式を生成
        • Cytoscape -S スクリプトの場所/cytoscapebuildrun.txtで生成されたスクリプト一式を読み込む
      • RDFデータの(なんらかの)メタデータを計算して,表示する (表示例)
      • あまり他の人が利用する前提になっていないので,パスやワークスペースなどかなり環境依存
      • こちらが指定した形式のメタデータ(ex. SPARQL Builder Metadata) が利用できるかどうか不明(マニュアルには記述なし)
  • SPARQLBuilder(小林,山口)
    • PATH数推定をDBPediaで実験
      • 元データが細かくグラフに分かれているので,現在の1エンドポイント1データセット仮定ではうまくいかないため,プログラムを改変
      • 今後外部データ(OWLファイル等)の取り込みも含め,メタデータの取り扱いについて,議論が必要(今後の課題)
  • 化合物関連データ(山田)
    • 目的:化合物のデータベースでは化学構造式の表現法が異なる(主に、立体化学の表現方法が異なる)ため、化合物をリンクする際に問題点がある。そこで、化合物データをInChIに変換し、この文字列を利用して簡易的な立体情報を無視したマッピングを行い、化合物構造のキュレーションとリンク情報を正しくしていきたい。・・・そのうち、WURCSも利用したい
    • 化合物データベースからのデータの入手
      • 日化辞のInChIのRDFデータ
      • KNApSAcK: 金谷先生から提供されたmolfile(V2000)をOpenBabel でInChI&InChIKeyへ変換
        • 28468328トリプル
      • ChEBI: ダウンロードサイトからSDFを取得し、OpenBabel でInChI&InChIKeyへ変換 ChEBIのライセンス Creative Commons License
        • 174628トリプル
      • PubChemはデータが大きいので、PugRESTを利用して検討するための調査。
        • PubChemのWebサイト検索では、InChIの部分文字列”InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/”では、hitしなかった。そこで、InChIKey(TYQCGQRIZGCHNB-UHFFFAOYSA-N)の前半部分”TYQCGQRIZGCHNB”で検索したところL-アスコルビン酸が検索された。そこで、InChIKeyを利用する方向で検討する。
    • 日化辞のInChIのRDFデータを参考に、KNApSAck,ChEBIのデータをRDF化し、Virtuoso7.1のロード
      • InChIは複数のレイヤーを用いて記載されているため、これを利用してに、データベース間のIDリンク情報を調査する。
InChI=1S/<メインレイヤー>化学式/原子の繋がり/水素原子</メインレイヤー>/<電荷レイヤー>プロトンサブレイヤー(p)/電荷サブレイヤー(q)</電荷レイヤー>/
<立体化学レイヤー>/二重結合とクムレン(b)/原子の四面体配置とアレーン(t,m)/立体化学の種類の情報(s)/<立体化学レイヤー>/<同位体レイヤー>(i,h,b,t,m,s)</同位体レイヤー>
L-アスコルビン酸: InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/t2-,5+/m0/s1
立体化学情報以降のレイヤーを除いたL-アスコルビン酸のInChIの部分文字列: InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/
    • 櫛田さんに準備していただいたニッカジのRDFデータをロードして、立体化学情報以降のレイヤーを除いたInChIの部分文字列の検索で、各DBのID一覧を取得する予定。
SPARQL検索の例: 参考(http://www.w3.org/TR/sparql11-query/#func-strings)
select str (?id ) as ?ID str ( ?inchi ) as ?InChI ?s as ?DB
from <http://www.glyconavi.org/inchi/KNApSAcK>
from <http://www.glyconavi.org/inchi/chebi>
from <http://www.glyconavi.org/inchi/nikkaji>
where {
 ?s2 <http://semanticscience.org/resource/SIO_000300> ?inchi .
  FILTER( contains(str(?inchi),'InChI=1S/C18H19NO4/c1-22-15-8-11-10(7-13(15)20)5-12-16-9(3-4-19-12)6-14(21)18(23-2)17(11)16/h6-8,12,19-21H,3-5H2,1-2H3/') )
#   FILTER( STRSTARTS(str(?inchi),'InChI=1S/C18H19NO4/c1-22-15-8-11-10(7-13(15)20)5-12-16-9(3-4-19-12)6-14(21)18(23-2)17(11)16/h6-8,12,19-21H,3-5H2,1-2H3/') )
 ?s <http://semanticscience.org/resource/CHEMINF_000200> ?s2 .
 ?s <http://purl.org/dc/terms/identifier> ?id .
}
SPARQLthonの|SPARQL TextSearchを参考に、Virtuoso独自の"bif:contains"を利用 (2015.06.27)
検索速度は改善されたが、結果の検証が必要か? 部分一致させる文字列の最後に"/"が、クエリにはあるが、検索結果において文字列の最後の”/”が含まれないものが含まれていた。Virtuosoの"bif:contains"の仕様みたい。
select str (?id ) as ?ID str ( ?inchi ) as ?InChI ?s as ?DB
from <http://www.glyconavi.org/inchi/KNApSAcK>
from <http://www.glyconavi.org/inchi/chebi>
from <http://www.glyconavi.org/inchi/nikkaji>
where {
 ?s2 <http://semanticscience.org/resource/SIO_000300> ?inchi .

 ?inchi bif:contains '"InChI=1S/C18H19NO4/c1-22-15-8-11-10(7-13(15)20)5-12-16-9(3-4-19-12)6-14(21)18(23-2)17(11)16/h6-8,12,19-21H,3-5H2,1-2H3/"' .

 ?s <http://semanticscience.org/resource/CHEMINF_000200> ?s2 .
 ?s <http://purl.org/dc/terms/identifier> ?id .
}

今後の予定

参考リンク


参加者

  • 片山俊明 (DBCLS)
  • 川島秀一 (DBCLS)
  • 守屋勇樹 (DBCLS)
  • 小林紀郎 (理研)
  • 小澤健太郎 (SGI)
  • 上原英也 (SGI) 23日のみ
  • 坊農秀雅 (DBCLS)
  • 山中遼太 (先端研)
  • 山本泰智 (DBCLS)
  • 大石直哉 (DOGRUN)
  • 岡別府陽子 (MSS)
  • 時松敏明 (DBCLS) 22日午後から
  • 永野朗夫 (PENQE)
  • 藤澤貴智(遺伝研)
  • 京田耕司(RIKEN QBiC)
  • 櫛田達矢(NBDC)
  • 畠中秀樹(NBDC)22日のみ
  • 信定知江(NBDC)
  • 桝屋啓志 (RIKEN BRC)22日のみ
  • 高月照江 (RIKEN BRC)
  • 戀津魁 (理研)
  • 山田一作 (野口研)23日のみ
  • 市原寿子 (かずさDNA研)
  • 山口敦子 (DBCLS)
  • 千葉啓和(基生研)
  • 森宙史(東工大)
  • 仲里猛留(DBCLS)22日のみ
  • 山本希(東工大)22日のみ
  • 小寺正明(東工大)22日のみ
  • 内藤雄樹 (DBCLS)
  • 新町大輔 (創価大)22日のみ
  • 松原正陽 (野口研)23日のみ
  • 河野信(DBCLS)
/mw/SPARQLthon33」より作成