SPARQLthon21
提供:TogoWiki
(版間での差分)
(→参加者) |
(→TPP グループ) |
||
88行: | 88行: | ||
*** ゲノム以外を RDF 化する際のオントロジー、細胞株などのメタデータを表現するオントロジーを調査 | *** ゲノム以外を RDF 化する際のオントロジー、細胞株などのメタデータを表現するオントロジーを調査 | ||
- | * 成松グループ ( | + | * 成松グループ (木下・青木・新町・松原・山田・小寺) |
** 山田 | ** 山田 | ||
*** 有田グループの化合物と関連するため打ち合わせをする | *** 有田グループの化合物と関連するため打ち合わせをする | ||
- | *** タンパクの糖鎖修飾位置のデータがあるので利用できるグループと相談 | + | *** GlycoProtDB: タンパクの糖鎖修飾位置のデータがあるので利用できるグループと相談 |
- | *** レクチン(糖鎖とタンパクの相互作用のデータ)の RDF 化 | + | *** LfDB:レクチン(糖鎖とタンパクの相互作用のデータ)の RDF 化 |
- | *** 動植物の糖鎖を認識する病原体についてのデータの RDF 化(オントロジーは完成) | + | *** PACDB: 動植物の糖鎖を認識する病原体についてのデータの RDF 化(オントロジーは完成) |
- | *** | + | *** GlycoEpitope(糖を認識するエピトープ)のデータの RDF 化(奥田) |
*** GlycoRDFの情報をまとめるサイト http://www.glycoinfo.org/ に集約 | *** GlycoRDFの情報をまとめるサイト http://www.glycoinfo.org/ に集約 | ||
**** https://github.com/ReneRanzinger/GlycoRDF/wiki | **** https://github.com/ReneRanzinger/GlycoRDF/wiki | ||
118行: | 118行: | ||
*** PO では足りない部分(英語ではあるが日本語にはないもの etc.)の補完が必要 | *** PO では足りない部分(英語ではあるが日本語にはないもの etc.)の補完が必要 | ||
** 病害関連キュレーションにおいてフェノームデータベースと連携したい | ** 病害関連キュレーションにおいてフェノームデータベースと連携したい | ||
+ | |||
+ | * 化合物 | ||
+ | ** InChIで表現できる化合物について | ||
+ | <pre> | ||
+ | * PubChem/ChEBI を参考... (有田グループ) | ||
+ | * NBDC では日化辞でも RDF 化を進めており、TPP の化合物間のリンクのハブにしたい(櫛田) | ||
+ | * 有田グループの化合物と... (山田) | ||
+ | </pre> | ||
+ | ** PubChem/ChEMBL-RDF で Chemical Information Ontology が利用されている。 | ||
+ | *** http://bioportal.bioontology.org/ontologies/CHEMINF | ||
+ | ** CHEMINFで用いられているInChI(InChIKey)の表記の採用 | ||
+ | <pre> | ||
+ | <個々の化合物> <owl:equivalentClass> <対応するInChI(or InChIKey)(クラス)> | ||
+ | 主語:<個々の化合物>のURIは、各グループで設定 | ||
+ | 目的語:<対応するInChI(or InChIKey)(クラス)>のURIは、NBDCで改めて提案 | ||
+ | 例、purlの活用 | ||
+ | </pre> | ||
+ | * 日化辞RDF(仮)の利用 | ||
== 参考リンク == | == 参考リンク == |
2014年6月19日 (木) 08:04時点における版
第21回 SPARQLthon を下記日程で開催したいと思います。
目次 |
開催概要
- 開催期間:2014年6月18日(火) 10:00 〜 19日(水) 18:00
- 開催場所:ライフサイエンス統合データベースセンター (DBCLS) @ 東京大学 柏の葉キャンパス駅前 サテライト 6階
- アクセス:http://dbcls.rois.ac.jp/access
プロジェクト
- 各グループがどのようなデータを持っているかを相互に確認する(櫻井)
- DBcatalog
- Species
- Metabolite
- 坂東さんの Google docs に、共通に使えるデータやリンク先 URI や適切なオントロジーなどの集約を行う?
- スキーマ図をどのように生成するか(共通化するか)をシェアしたい(大田)
- ゲノム情報 RDF の共有化(片山・藤沢)
- http://ep.dbcls.jp/rdf/togogenome/refseq/ に真核生物を含め RDF サミットバージョンに更新
- http://ep.dbcls.jp/rdf/togogenome/genomes/ の RDF 化(藤沢)→ 特定の生物種群の ID リスト取得など
- SPARQL Queryベンチ関係 (山本)
- SPARQL全文検索 (岡別府)
- リアクションオントロジー(小寺・時松)
- IUBMB Enzyme List にある語彙を標準化し、IUBMB EC number との対応関係を比較。
- 同じECサブサブクラス中で違った特徴を持つ反応グループに分けたりできます。たとえば
- EC1.1.1(アルコール酸化酵素)647反応中脱カルボキシ化28反応
- EC1.13.11(モノオキシゲナーゼ)139反応中47個が開環反応
- EC2.3.1(アシル転移酵素)367反応中アセチル化126個、マロニル化41個、脱カルボキシ化32個、etc
- EC2.4.1(糖転移酵素)591反応中グルコシル化200個、ガラクトシル化65個、etc
- EC2.5.1(アルキル転移酵素)174反応中アルキル化25個、アリル化23個、etc
- EC4.1.1(脱炭酸酵素)137反応中脱カルボキシ化97個
- 様々な特徴をもつ反応をEC分類に依存せずに抜き出すことが出来ます。たとえば
- acetylation(アセチル化)はEC2.3.1(アシル転移酵素)103個、EC3.5.1(アミド加水分解酵素)2個
- その上位概念acylation(アシル化)はEC2.3.1(アシル転移酵素)126個、EC3.5.1(アミド加水分解酵素)20個
- carboxylation(カルボキシ化)はEC4.1.1(脱炭酸酵素)16個、EC6.4.1で10個、EC1.1.1で10個、etc
- amination(アミノ化)はEC2.6.1で121個、EC3.5.4で31個、EC1.4.3で27個、EC4.3.1で13個
- 同じECサブサブクラス中で違った特徴を持つ反応グループに分けたりできます。たとえば
- IUBMB Enzyme List にある語彙を標準化し、IUBMB EC number との対応関係を比較。
TPP グループ
- 有田グループ(有田・金谷・櫻井・時松・小寺)
- ナップサックの RDF 化を進めたい
- 生物種
- DBカタログで taxonomy ID を使って整理している部分と共通化 (taxonomy ID がつかないものが多いがどうするか、リンネの種小名がわからない場合も多い→Genusにする?)
- 化合物(代謝物)
- PubChem/ChEBI を参考にして記述したい、Compound のID はナップサック ID をつけ、PubChem ID もしくは CAS 番号へのリンクをそろえたい、
- 化合物の中には複数のコンポーネントから生合成されているものがある
- 糖脂質(糖鎖+脂質)、アルカロイド+テルペノイド、といった化合物を RDF でどう記述するか(記述するのか)を検討→化合物の上位概念をつけるかどうか
- NBDC では日化辞でも RDF 化を進めており、TPP の化合物間のリンクのハブにしたい(櫛田)
- 文献
- 論文が中心だが分野が違う・古いものが多い・中国/インド系が多いなどでPubMedのIDがつかないものが多い、ナップサックの paper ID を利用、ジャーナル単位でリンク?
- Japan Link Center(JaLC)でDOI を付与することが可能(櫛田)
- PubMed の場合 http://identifiers.org/pubmed/24495517 → http://togows.org/entry/pubmed/24495517.ttl
- 生物種
- 櫻井
- メタボロームのメタデータの RDF 化は RDB から D2RQ で行うのが良さそう
- 小寺、時松
- 化合物の部分構造やリアクションオントロジーから IUPAC-IUBMB による標準化語彙との関係や、まだ標準化されていない化合物グループがあるかなど
- ナップサックの RDF 化を進めたい
- 黒川グループ (森・山本・藤澤・鈴木・千葉・矢野)
- 森
- ゲノムRDFの真核対応のテストを開始する
- メタゲノムのメタデータを収集しオントロジーの更新が必要な部分を検証
- 千葉
- オーソログのオントロジーで MBGD にない生物種(真核生物)も記述してオントロジーの再検討を行う
- オーソログのデータセットが複数できるのでメタデータをどう RDF で管理するかを坂東さんと相談する
- 藤澤
- ゲノム RDF の真核対応で genome reports の RDF 化を行ったので、Taxnomy ID と BioSample ID の関係を利用する方向で検討 SPARQLthon21/Organism
- 継続:RNA-Seq のメタデータの RDF 化を検討 ← RefEx との共通化について小野さん・大田さんと相談
- 森
- 菅野グループ (河野・鈴木)
- 河野
- ゲノム、トランスクリプトーム、エピゲノムのデータが出てくるが、出せるデータをどのように RDF 化するかを検討
- ゲノム以外を RDF 化する際のオントロジー、細胞株などのメタデータを表現するオントロジーを調査
- 河野
- 成松グループ (木下・青木・新町・松原・山田・小寺)
- 山田
- 有田グループの化合物と関連するため打ち合わせをする
- GlycoProtDB: タンパクの糖鎖修飾位置のデータがあるので利用できるグループと相談
- LfDB:レクチン(糖鎖とタンパクの相互作用のデータ)の RDF 化
- PACDB: 動植物の糖鎖を認識する病原体についてのデータの RDF 化(オントロジーは完成)
- GlycoEpitope(糖を認識するエピトープ)のデータの RDF 化(奥田)
- GlycoRDFの情報をまとめるサイト http://www.glycoinfo.org/ に集約
- 小寺
- IUPAC でも何をもって糖(残基)とよぶか曖昧という現状なので詰める
- 木下
- 山田
- 桝屋グループ(桝屋)
- フェノーム統合データベース
- 各生物種ごとにフォーマットや表現方法がバラバラな表現型を RDF で統一化する
- 表現型のデータ(疾患・検査結果・遺伝子発現など)
- 数+単位の RDF 化
- 生物(サンプル・バイオリソースなど)
- 文献情報などリンク先の調査
- フェノーム統合データベース
- 田畑グループ(市原)
- PGDBj の複数のコンテンツの RDF 化のための準備
- 植物関連学会からの要請で植物のオントロジー整備を進めたい
- 登録生物種リスト (taxonomy ID)
- 植物関連データベースリンク集 → データベースカタログとの打ち合わせ
- 植物遺伝マーカー、QTL、病害関連情報のRDF化のためのオントロジー調査
- PO では足りない部分(英語ではあるが日本語にはないもの etc.)の補完が必要
- 病害関連キュレーションにおいてフェノームデータベースと連携したい
- 化合物
- InChIで表現できる化合物について
* PubChem/ChEBI を参考... (有田グループ) * NBDC では日化辞でも RDF 化を進めており、TPP の化合物間のリンクのハブにしたい(櫛田) * 有田グループの化合物と... (山田)
- PubChem/ChEMBL-RDF で Chemical Information Ontology が利用されている。
- CHEMINFで用いられているInChI(InChIKey)の表記の採用
<個々の化合物> <owl:equivalentClass> <対応するInChI(or InChIKey)(クラス)> 主語:<個々の化合物>のURIは、各グループで設定 目的語:<対応するInChI(or InChIKey)(クラス)>のURIは、NBDCで改めて提案 例、purlの活用
- 日化辞RDF(仮)の利用
参考リンク
- これまでの SPARQLthon
参加者
- 片山俊明(DBCLS)
- 川島秀一(DBCLS)
- 小林 紀郎 (理研)
- 藤澤貴智(遺伝研)
- 永野朗夫(PENQE)19日のみ
- 守屋勇樹 (DBCLS)
- 岡別府陽子(MSS)
- 戀津 魁 (理研)
- 桝屋 啓志 (理研)
- 高月照江(理研)
- 岡本 忍(DBCLS)18日のみ
- 古崎晃司(阪大)19日のみ
- 坂東 明日佳 (NBDC) 19日のみ
- 森 宙史(東工大)
- 山本 希 (東工大)
- 山田一作 (野口研)
- 時松敏明 (DBCLS)
- 櫻井望 (かずさ) 18日のみ
- 千葉啓和(基生研)
- 小寺正明(東工大)
- 平川英樹(かずさ)18日のみ
- 市原寿子(かずさ)
- 櫛田達矢(NBDC)
- 金谷重彦(奈良先)18日のみ
- 山本泰智 (DBCLS)
- 有田正規 (遺伝研) 18日のみ
- 木下聖子(創価大)19日のみ