SPARQLthon21
提供:TogoWiki
(版間での差分)
(→SPARQLthon グループ) |
(→SPARQLthon グループ) |
||
132行: | 132行: | ||
** 臓器が FMA のラベルで書かれている? → Bodyparts 3D / RefEx を参考に連携したい | ** 臓器が FMA のラベルで書かれている? → Bodyparts 3D / RefEx を参考に連携したい | ||
- | * | + | * <div id="Taxonomy Ontology について"></div>Taxonomy Ontology について(桝屋・藤沢・川島・片山) |
** https://github.com/dbcls/rdfsummit/blob/master/taxdump2owl/taxdump2owl.rb | ** https://github.com/dbcls/rdfsummit/blob/master/taxdump2owl/taxdump2owl.rb | ||
** http://ep.dbcls.jp/rdf/togogenome/ontology/taxonomy/current/taxonomy.owl | ** http://ep.dbcls.jp/rdf/togogenome/ontology/taxonomy/current/taxonomy.owl |
2014年7月13日 (日) 22:26時点における最新版
第21回 SPARQLthon を下記日程で開催したいと思います。
目次 |
開催概要
- 開催期間:2014年6月18日(火) 10:00 〜 19日(水) 18:00
- 開催場所:ライフサイエンス統合データベースセンター (DBCLS) @ 東京大学 柏の葉キャンパス駅前 サテライト 6階
- アクセス:http://dbcls.rois.ac.jp/access
プロジェクト
TPP グループ全体
- 各グループがどのようなデータを持っているかを相互に確認する(櫻井)
- DBcatalog
- Species
- Metabolite
- 坂東さんの Google docs に、共通に使えるデータやリンク先 URI や適切なオントロジーなどの集約を行う?
- スキーマ図をどのように生成するか(共通化するか)をシェアしたい(大田)
- ゲノム情報 RDF の共有化(片山・藤沢)
- http://ep.dbcls.jp/rdf/togogenome/refseq/ に真核生物を含め RDF サミットバージョンに更新
- http://ep.dbcls.jp/rdf/togogenome/genomes/ の RDF 化(藤沢)→ 特定の生物種群の ID リスト取得など
- 化合物(櫛田・山田)
* PubChem/ChEBI を参考... (有田グループ) * NBDC では日化辞でも RDF 化を進めており、TPP の化合物間のリンクのハブにしたい(櫛田) * 有田グループの化合物と... (山田)
- 化合物について => 日化辞RDF(仮)の利用...
- PubChem/ChEMBL-RDF で Chemical Information Ontology が利用されている。 http://bioportal.bioontology.org/ontologies/CHEMINF
- CHEMINFで用いられているInChI(InChIKey)の表記の採用...
- 今後のSPARQLthonで各グループと相談したい。
<個々の化合物> <owl:equivalentClass> <対応するInChI(or InChIKey)(クラス)> 主語:<個々の化合物>のURIは、各グループで設定 目的語:<対応するInChI(or InChIKey)(クラス)>のURIは、NBDCで改めて提案 例、purlの活用
TPP グループ
- 有田グループ(有田・金谷・櫻井・時松・小寺)
- ナップサックの RDF 化を進めたい
- 生物種
- DBカタログで taxonomy ID を使って整理している部分と共通化 (taxonomy ID がつかないものが多いがどうするか、リンネの種小名がわからない場合も多い→Genusにする?)
- 化合物(代謝物)
- PubChem/ChEBI を参考にして記述したい、Compound のID はナップサック ID をつけ、PubChem ID もしくは CAS 番号へのリンクをそろえたい、
- 化合物の中には複数のコンポーネントから生合成されているものがある
- 糖脂質(糖鎖+脂質)、アルカロイド+テルペノイド、といった化合物を RDF でどう記述するか(記述するのか)を検討→化合物の上位概念をつけるかどうか
- NBDC では日化辞でも RDF 化を進めており、TPP の化合物間のリンクのハブにしたい(櫛田)
- 文献
- 論文が中心だが分野が違う・古いものが多い・中国/インド系が多いなどでPubMedのIDがつかないものが多い、ナップサックの paper ID を利用、ジャーナル単位でリンク?
- Japan Link Center(JaLC)でDOI を付与することが可能(櫛田)
- PubMed の場合 http://identifiers.org/pubmed/24495517 → http://togows.org/entry/pubmed/24495517.ttl
- 生物種
- 櫻井
- メタボロームのメタデータの RDF 化は RDB から D2RQ で行うのが良さそう
- 小寺、時松
- 化合物の部分構造やリアクションオントロジーから IUPAC-IUBMB による標準化語彙との関係や、まだ標準化されていない化合物グループがあるかなど
- ナップサックの RDF 化を進めたい
- 黒川グループ (森・山本・藤澤・鈴木・千葉・矢野)
- 森
- ゲノムRDFの真核対応のテストを開始する
- メタゲノムのメタデータを収集しオントロジーの更新が必要な部分を検証
- 千葉
- オーソログオントロジーで MBGD 以外のデータセット記述し、オントロジーの再検討を行う
- 藤澤
- ゲノム RDF の真核対応で genome reports の RDF 化を行ったので、Taxnomy ID と BioSample ID の関係を利用する方向で検討
- RDF を更新した SPARQLthon21/Organism
- 継続:RNA-Seq のメタデータの RDF 化を検討 ← RefEx との共通化について小野さん・大田さんと相談
- 森
- 菅野グループ (河野・鈴木)
- 河野
- ゲノム、トランスクリプトーム、エピゲノムのデータが出てくるが、出せるデータをどのように RDF 化するかを検討
- ゲノム以外を RDF 化する際のオントロジー、細胞株などのメタデータを表現するオントロジーを調査
- 河野
- 成松グループ (木下・青木・新町・松原・山田・小寺)
- 山田
- 有田グループの化合物と関連するため打ち合わせをする
- GlycoProtDB: タンパクの糖鎖修飾位置のデータがあるので利用できるグループと相談
- LfDB:レクチン(糖鎖とタンパクの相互作用のデータ)の RDF 化
- PACDB: 動植物の糖鎖を認識する病原体についてのデータの RDF 化(オントロジーは完成)
- GlycoEpitope(糖を認識するエピトープ)のデータの RDF 化(奥田)
- GlycoRDFの情報をまとめるサイト http://www.glycoinfo.org/ に集約
- 小寺
- IUPAC でも何をもって糖(残基)とよぶか曖昧という現状なので詰める
- 木下
- 山田
- 桝屋グループ(桝屋)
- フェノーム統合データベース
- 各生物種ごとにフォーマットや表現方法がバラバラな表現型を RDF で統一化する
- 表現型のデータ(疾患・検査結果・遺伝子発現など)
- 数+単位の RDF 化
- 生物(サンプル・バイオリソースなど)
- 文献情報などリンク先の調査
- フェノーム統合データベース
- 田畑グループ(市原)
- PGDBj の複数のコンテンツの RDF 化のための準備→フェノーム統合と打ち合わせ
- データスキーマがある情報(病害関連・植物遺伝マーカー・QTL)について
- NCBIのTaxonomy IDを使う事にはなったが、記述の仕方を確認して詳細はまた次回以降。
- データスキーマを交換して、共有できる情報について次回打ち合わせできるようにする。
- 病害関連オントロジーの整備1→微生物統合の山本さん・森さんと打ち合わせ
- 山本さん作成の植物病害オントロジPIDO(Plant Infectious Disease Ontology: 微生物を基準とした記述)
- Plant Ontologyコンソーシアムで作成しているデータ(植物種を基準とした記述:植物種毎に分類されている状態)
- →植物統合チームで検討して、情報をフィードバックする
- 日本植物病名目録の情報を追加できると、植物病害オントロジの整備を進める上で情報の精度と鮮度が上がる
- (日本病理学会と生物研で情報の維持と管理、権利関連の交渉が必要)
- →使用許可等について、田畑先生から働きかけてもらえるようにお願いする
- 病害関連オントロジーを作成する時に採用を検討しているPathogen codeの問題点について森さんからコメント
- →PGDBjの提案者(病害関連の専門家)と検討
- 植物オーソログDBのRDF化:ラン藻/緑色植物のデータセットがDL可能→微生物統合の千葉さん
- →ラン藻のデータセットについてttl形式に変換できるスクリプト
- PGDBj の複数のコンテンツの RDF 化のための準備→フェノーム統合と打ち合わせ
SPARQLthon グループ
- EBI RDF Expression Atlas のスタンザ (川島)
- 中身はそれほどきれいな RDF ではない
- TogoGenome の遺伝子 ID から関連する発現情報を表示したい
- 定常状態での遺伝子発現(ベースライン)と、変異実験での発現データが Expression Atlas にはあるが、RDF には定常状態のものはないことがわかった
- とりあえず UniProt の ID からどの実験でどの臓器で変動(上昇・減少)しているかどうか(発現値は入っておらず p-value のみ)を表示するスタンザを作成した
- UniProt ID にひもづく probe で発現変動がデータ化されているので、その probe が本当にその遺伝子由来かは一意に定まらない
- 臓器が FMA のラベルで書かれている? → Bodyparts 3D / RefEx を参考に連携したい
- Taxonomy Ontology について(桝屋・藤沢・川島・片山)
- https://github.com/dbcls/rdfsummit/blob/master/taxdump2owl/taxdump2owl.rb
- http://ep.dbcls.jp/rdf/togogenome/ontology/taxonomy/current/taxonomy.owl
- サブクラス関係は rdfs:subClassOf, 階層は :rank で指定されている
- 各 taxonomy はクラスでありインスタンスでもある (UniProt の taxonomy オントロジーと互換)
- INSDC/DDBJ でホスティング予定
- ドキュメントと図解が必要
- SPARQL Queryベンチ関係 (山本)
- SPARQL全文検索 (岡別府)
- リアクションオントロジー(小寺・時松)
- IUBMB Enzyme List にある語彙を標準化し、IUBMB EC number との対応関係を比較。
- 同じECサブサブクラス中で違った特徴を持つ反応グループに分けたりできます。たとえば
- EC1.1.1(アルコール酸化酵素)647反応中脱カルボキシ化28反応
- EC1.13.11(モノオキシゲナーゼ)139反応中47個が開環反応
- EC2.3.1(アシル転移酵素)367反応中アセチル化126個、マロニル化41個、脱カルボキシ化32個、etc
- EC2.4.1(糖転移酵素)591反応中グルコシル化200個、ガラクトシル化65個、etc
- EC2.5.1(アルキル転移酵素)174反応中アルキル化25個、アリル化23個、etc
- EC4.1.1(脱炭酸酵素)137反応中脱カルボキシ化97個
- 様々な特徴をもつ反応をEC分類に依存せずに抜き出すことが出来ます。たとえば
- acetylation(アセチル化)はEC2.3.1(アシル転移酵素)103個、EC3.5.1(アミド加水分解酵素)2個
- その上位概念acylation(アシル化)はEC2.3.1(アシル転移酵素)126個、EC3.5.1(アミド加水分解酵素)20個
- carboxylation(カルボキシ化)はEC4.1.1(脱炭酸酵素)16個、EC6.4.1で10個、EC1.1.1で10個、etc
- amination(アミノ化)はEC2.6.1で121個、EC3.5.4で31個、EC1.4.3で27個、EC4.3.1で13個
- 同じECサブサブクラス中で違った特徴を持つ反応グループに分けたりできます。たとえば
- IUBMB Enzyme List にある語彙を標準化し、IUBMB EC number との対応関係を比較。
- SPARQL Builder (小林,古崎,戀津,山口)
- クラス構成の変更(沖縄バージョンとの訣別)
- 予め取得したメタデータを利用できるように
- WWWアプリケーションへ向けた詳細設計
- WWW バージョンに向けた GUI の JS 化
- メタデータ取得システムの実装
- クラス構成の変更(沖縄バージョンとの訣別)
- NGSonto survey and trial 🐶
- NGSonto をいじってます
- http://www.phyloviz.net/NGSonto/index.html
- これでSRA metadataをRDFizeすれば最高
- SRA metadata の parser は自分で書いていつも使ってるやつがある
- http://github.com/inutano/sra_metadata_toolkit
- リファクタリングしてgem化しときたい
- http://github.com/inutano/sra_metadata_toolkit
- SRA metadata の parser は自分で書いていつも使ってるやつがある
- こんなの見つけました
- NGSonto をいじってます
参考リンク
- これまでの SPARQLthon
参加者
- 片山俊明(DBCLS)
- 川島秀一(DBCLS)
- 小林 紀郎 (理研)
- 藤澤貴智(遺伝研)
- 永野朗夫(PENQE)19日のみ
- 守屋勇樹 (DBCLS)
- 岡別府陽子(MSS)
- 戀津 魁 (理研)
- 桝屋 啓志 (理研)
- 高月照江(理研)
- 岡本 忍(DBCLS)18日のみ
- 古崎晃司(阪大)19日のみ
- 坂東 明日佳 (NBDC) 19日のみ
- 森 宙史(東工大)
- 山本 希 (東工大)
- 山田一作 (野口研)
- 時松敏明 (DBCLS)
- 櫻井望 (かずさ) 18日のみ
- 千葉啓和(基生研)
- 小寺正明(東工大)
- 平川英樹(かずさ)18日のみ
- 市原寿子(かずさ)
- 櫛田達矢(NBDC)
- 金谷重彦(奈良先)18日のみ
- 山本泰智 (DBCLS)
- 有田正規 (遺伝研) 18日のみ
- 木下聖子(創価大)19日のみ
- 新町大輔(創価大)19日のみ
- 松原正陽(野口研)19日のみ