SPARQLthon21

提供：TogoWiki

（版間での差分）

移動：案内, 検索

2014年7月13日 (日) 22:26時点における最新版

第21回 SPARQLthon を下記日程で開催したいと思います。

開催概要

開催期間：2014年6月18日(火) 10:00 〜 19日(水) 18:00
開催場所：ライフサイエンス統合データベースセンター (DBCLS) @ 東京大学柏の葉キャンパス駅前サテライト 6階
アクセス：http://dbcls.rois.ac.jp/access

プロジェクト

TPP グループ全体

各グループがどのようなデータを持っているかを相互に確認する（櫻井）
- DBcatalog
- Species
- Metabolite
  - 坂東さんの Google docs に、共通に使えるデータやリンク先 URI や適切なオントロジーなどの集約を行う？

スキーマ図をどのように生成するか（共通化するか）をシェアしたい（大田）
- Google presentation
- OmniGraffle [1] (有料)
- CytoscapeWeb [2]
  - OWL → 可視化的なことができるのが望ましい
  - 既存のスキーマ図を集める
- 調査しました
  - https://gist.github.com/inutano/52a69a77ecf2a9d92760

ゲノム情報 RDF の共有化（片山・藤沢）
- http://ep.dbcls.jp/rdf/togogenome/refseq/ に真核生物を含め RDF サミットバージョンに更新
- http://ep.dbcls.jp/rdf/togogenome/genomes/ の RDF 化（藤沢）→ 特定の生物種群の ID リスト取得など

化合物（櫛田・山田）

* PubChem/ChEBI を参考... (有田グループ)
* NBDC では日化辞でも RDF 化を進めており、TPP の化合物間のリンクのハブにしたい（櫛田）
* 有田グループの化合物と... （山田）

化合物について　=> 日化辞RDF（仮）の利用...
PubChem/ChEMBL-RDF で Chemical Information Ontology が利用されている。 http://bioportal.bioontology.org/ontologies/CHEMINF
CHEMINFで用いられているInChI(InChIKey)の表記の採用...
今後のSPARQLthonで各グループと相談したい。

<個々の化合物> <owl:equivalentClass> <対応するInChI（or InChIKey）（クラス）>
     主語：<個々の化合物>のURIは、各グループで設定
    目的語：<対応するInChI（or InChIKey）（クラス）>のURIは、NBDCで改めて提案
       例、purlの活用

TPP グループ

有田グループ（有田・金谷・櫻井・時松・小寺）
- ナップサックの RDF 化を進めたい
  - 生物種
    - DBカタログで taxonomy ID を使って整理している部分と共通化 (taxonomy ID がつかないものが多いがどうするか、リンネの種小名がわからない場合も多い→Genusにする？)
  - 化合物（代謝物）
    - PubChem/ChEBI を参考にして記述したい、Compound のID はナップサック ID をつけ、PubChem ID もしくは CAS 番号へのリンクをそろえたい、
    - 化合物の中には複数のコンポーネントから生合成されているものがある
    - 糖脂質（糖鎖＋脂質）、アルカロイド＋テルペノイド、といった化合物を RDF でどう記述するか（記述するのか）を検討→化合物の上位概念をつけるかどうか
    - NBDC では日化辞でも RDF 化を進めており、TPP の化合物間のリンクのハブにしたい（櫛田）
  - 文献
    - 論文が中心だが分野が違う・古いものが多い・中国/インド系が多いなどでPubMedのIDがつかないものが多い、ナップサックの paper ID を利用、ジャーナル単位でリンク？
    - Japan Link Center(JaLC)でDOI を付与することが可能（櫛田）
    - PubMed の場合 http://identifiers.org/pubmed/24495517 → http://togows.org/entry/pubmed/24495517.ttl
- 櫻井
  - メタボロームのメタデータの RDF 化は RDB から D2RQ で行うのが良さそう
- 小寺、時松
  - 化合物の部分構造やリアクションオントロジーから IUPAC-IUBMB による標準化語彙との関係や、まだ標準化されていない化合物グループがあるかなど

黒川グループ (森・山本・藤澤・鈴木・千葉・矢野）
- 森
  - ゲノムRDFの真核対応のテストを開始する
  - メタゲノムのメタデータを収集しオントロジーの更新が必要な部分を検証
- 千葉
  - オーソログオントロジーで MBGD 以外のデータセット記述し、オントロジーの再検討を行う
- 藤澤
  - ゲノム RDF の真核対応で genome reports の RDF 化を行ったので、Taxnomy ID と BioSample ID の関係を利用する方向で検討
  - RDF を更新した SPARQLthon21/Organism
  - 継続：RNA-Seq のメタデータの RDF 化を検討 ← RefEx との共通化について小野さん・大田さんと相談

菅野グループ (河野・鈴木)
- 河野
  - ゲノム、トランスクリプトーム、エピゲノムのデータが出てくるが、出せるデータをどのように RDF 化するかを検討
  - ゲノム以外を RDF 化する際のオントロジー、細胞株などのメタデータを表現するオントロジーを調査

成松グループ (木下・青木・新町・松原・山田・小寺）
- 山田
  - 有田グループの化合物と関連するため打ち合わせをする
  - GlycoProtDB: タンパクの糖鎖修飾位置のデータがあるので利用できるグループと相談
  - LfDB:レクチン（糖鎖とタンパクの相互作用のデータ）の RDF 化
  - PACDB: 動植物の糖鎖を認識する病原体についてのデータの RDF 化（オントロジーは完成）
  - GlycoEpitope（糖を認識するエピトープ）のデータの RDF 化（奥田）
  - GlycoRDFの情報をまとめるサイト http://www.glycoinfo.org/ に集約
    - https://github.com/ReneRanzinger/GlycoRDF/wiki
- 小寺
  - IUPAC でも何をもって糖（残基）とよぶか曖昧という現状なので詰める
- 木下
  - 階層ファセット：http://simile-widgets.org/wiki/Exhibit/Hierarchical_Facet

桝屋グループ（桝屋）
- フェノーム統合データベース
  - 各生物種ごとにフォーマットや表現方法がバラバラな表現型を RDF で統一化する
  - 表現型のデータ（疾患・検査結果・遺伝子発現など）
    - 数＋単位の RDF 化
  - 生物（サンプル・バイオリソースなど）
    - 文献情報などリンク先の調査

田畑グループ（市原）
- PGDBj の複数のコンテンツの RDF 化のための準備→フェノーム統合と打ち合わせ
  - データスキーマがある情報（病害関連・植物遺伝マーカー・QTL）について
  - NCBIのTaxonomy IDを使う事にはなったが、記述の仕方を確認して詳細はまた次回以降。
  - データスキーマを交換して、共有できる情報について次回打ち合わせできるようにする。
- 病害関連オントロジーの整備１→微生物統合の山本さん・森さんと打ち合わせ
  - 山本さん作成の植物病害オントロジPIDO（Plant Infectious Disease Ontology: 微生物を基準とした記述）
  - Plant Ontologyコンソーシアムで作成しているデータ（植物種を基準とした記述：植物種毎に分類されている状態）
  - →植物統合チームで検討して、情報をフィードバックする
  - 日本植物病名目録の情報を追加できると、植物病害オントロジの整備を進める上で情報の精度と鮮度が上がる
  - （日本病理学会と生物研で情報の維持と管理、権利関連の交渉が必要）
  - →使用許可等について、田畑先生から働きかけてもらえるようにお願いする
  - 病害関連オントロジーを作成する時に採用を検討しているPathogen codeの問題点について森さんからコメント
  - →PGDBjの提案者（病害関連の専門家）と検討
- 植物オーソログDBのRDF化：ラン藻/緑色植物のデータセットがDL可能→微生物統合の千葉さん
  - →ラン藻のデータセットについてttl形式に変換できるスクリプト

SPARQLthon グループ

EBI RDF Expression Atlas のスタンザ (川島)
- 中身はそれほどきれいな RDF ではない
- TogoGenome の遺伝子 ID から関連する発現情報を表示したい
- 定常状態での遺伝子発現（ベースライン）と、変異実験での発現データが Expression Atlas にはあるが、RDF には定常状態のものはないことがわかった
- とりあえず UniProt の ID からどの実験でどの臓器で変動（上昇・減少）しているかどうか（発現値は入っておらず p-value のみ）を表示するスタンザを作成した
- UniProt ID にひもづく probe で発現変動がデータ化されているので、その probe が本当にその遺伝子由来かは一意に定まらない
- 臓器が FMA のラベルで書かれている？ → Bodyparts 3D / RefEx を参考に連携したい

Taxonomy Ontology について（桝屋・藤沢・川島・片山）
- https://github.com/dbcls/rdfsummit/blob/master/taxdump2owl/taxdump2owl.rb
- http://ep.dbcls.jp/rdf/togogenome/ontology/taxonomy/current/taxonomy.owl
  - サブクラス関係は rdfs:subClassOf, 階層は :rank で指定されている
  - 各 taxonomy はクラスでありインスタンスでもある (UniProt の taxonomy オントロジーと互換)
  - INSDC/DDBJ でホスティング予定
  - ドキュメントと図解が必要

SPARQL Queryベンチ関係 (山本)
- SPARQL_Query_Benchmarker調査
- SPARQLtester

SPARQL全文検索 (岡別府)
- SPARQL_TextSearch

リアクションオントロジー（小寺・時松）
- IUBMB Enzyme List にある語彙を標準化し、IUBMB EC number との対応関係を比較。
  - 同じECサブサブクラス中で違った特徴を持つ反応グループに分けたりできます。たとえば
    - EC1.1.1（アルコール酸化酵素）647反応中脱カルボキシ化28反応
    - EC1.13.11（モノオキシゲナーゼ）139反応中47個が開環反応
    - EC2.3.1（アシル転移酵素）367反応中アセチル化126個、マロニル化41個、脱カルボキシ化32個、etc
    - EC2.4.1（糖転移酵素）591反応中グルコシル化200個、ガラクトシル化65個、etc
    - EC2.5.1（アルキル転移酵素）174反応中アルキル化25個、アリル化23個、etc
    - EC4.1.1（脱炭酸酵素）137反応中脱カルボキシ化97個
  - 様々な特徴をもつ反応をEC分類に依存せずに抜き出すことが出来ます。たとえば
    - acetylation（アセチル化）はEC2.3.1（アシル転移酵素）103個、EC3.5.1（アミド加水分解酵素）2個
    - その上位概念acylation（アシル化）はEC2.3.1（アシル転移酵素）126個、EC3.5.1（アミド加水分解酵素）20個
    - carboxylation（カルボキシ化）はEC4.1.1（脱炭酸酵素）16個、EC6.4.1で10個、EC1.1.1で10個、etc
    - amination（アミノ化）はEC2.6.1で121個、EC3.5.4で31個、EC1.4.3で27個、EC4.3.1で13個

SPARQL Builder (小林，古崎，戀津，山口)
- クラス構成の変更(沖縄バージョンとの訣別)
  - 予め取得したメタデータを利用できるように
  - WWWアプリケーションへ向けた詳細設計
- WWW バージョンに向けた GUI の JS 化
- メタデータ取得システムの実装

NGSonto survey and trial 🐶
- NGSonto をいじってます
  - http://www.phyloviz.net/NGSonto/index.html
  - これでSRA metadataをRDFizeすれば最高
    - SRA metadata の parser は自分で書いていつも使ってるやつがある
      - http://github.com/inutano/sra_metadata_toolkit
        リファクタリングしてgem化しときたい
- こんなの見つけました
  - https://github.com/ISA-tools/OntoMaton

参考リンク

これまでの SPARQLthon

参加者

片山俊明（DBCLS）
川島秀一（DBCLS）
小林紀郎 (理研)
藤澤貴智（遺伝研）
永野朗夫（PENQE）１９日のみ
守屋勇樹 (DBCLS)
岡別府陽子(MSS)
戀津魁 (理研)
桝屋啓志 (理研)
高月照江（理研）
岡本　忍（DBCLS）18日のみ
古崎晃司（阪大）19日のみ
坂東明日佳 (NBDC) 19日のみ
森宙史（東工大）
山本希 (東工大)
山田一作 (野口研)
時松敏明 (DBCLS)
櫻井望 (かずさ) 18日のみ
千葉啓和（基生研）
小寺正明（東工大）
平川英樹（かずさ）18日のみ
市原寿子（かずさ）
櫛田達矢（NBDC）
金谷重彦（奈良先）18日のみ
山本泰智 (DBCLS)
有田正規 (遺伝研) 18日のみ
木下聖子（創価大）19日のみ
新町大輔（創価大）19日のみ
松原正陽（野口研）19日のみ

@@ 132行： / 132行： @@
 ** 臓器が FMA のラベルで書かれている？ → Bodyparts 3D / RefEx を参考に連携したい
-* Taxonomy Ontology について（桝屋・藤沢・川島・片山）<div id="Taxonomy Ontology について"></div>
+* <div id="Taxonomy Ontology について"></div>Taxonomy Ontology について（桝屋・藤沢・川島・片山）
 ** https://github.com/dbcls/rdfsummit/blob/master/taxdump2owl/taxdump2owl.rb
 ** http://ep.dbcls.jp/rdf/togogenome/ontology/taxonomy/current/taxonomy.owl

SPARQLthon21

提供：TogoWiki

2014年7月13日 (日) 22:26時点における最新版

目次

開催概要

プロジェクト

TPP グループ全体

TPP グループ

SPARQLthon グループ

参考リンク

参加者

表示

個人用ツール

案内

検索

ツールボックス