BH14.14/compound

提供:TogoWiki

2015年2月3日 (火) 07:26時点におけるIssaku (トーク | 投稿記録)による版
移動: 案内, 検索

目次

化合物関連情報のRDF化

  • メンバー: 櫻井、山田、時松、福島、西田、櫛田
  • サテライト参加:小寺、木村、三橋、新町、中村

精密質量MSのピークアノテーション(櫻井)

  • 精密質量MSのピークアノテーションにおける、イオン化状態(アダクト)の判定アルゴリズムを完成させる

糖鎖構造のRDF化とSPARQL(山田、新町)

国際糖鎖構造リポジトリGlyTouCanにおいて現在利用している検索ツールは、GlcNAcを検索する場合でもGlcを含んで検索してしまう問題がある。この問題を糖鎖線形表記(WURCS)をRDF化したWURCS-RDFとSPARQLで構造検索を実現したい。 (参考SPARQLthon/glycan/wurcsRDF

  • 糖鎖構造のRDF化(山田)
    • WURCS to WURCS-RDF修正: 糖鎖構造の線形文字列表記(WURCS)を、WURCS-RDF形式へ変換するツールの改良
  • 糖鎖構造検索
テスト糖鎖のWURCS
ID1	WURCS=2.0/2,3,2/[11122h-1b_1-5][21122h-1a_1-5]/1-2-2/a3-b1_a6-c1
ID2	WURCS=2.0/2,2,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2/a3-b1
ID3	WURCS=2.0/2,2,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2/a6-b1
ID4	WURCS=2.0/2,2,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2/b1-a3|a6
ID5	WURCS=2.0/2,2,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2/b1-a4|a6
ID6	WURCS=2.0/2,2,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2/b1-a3|a4|a6
ID7	WURCS=2.0/2,3,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2-1/a3|a4-b1|c1
ID8	WURCS=2.0/2,3,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2-1/a4|a6-b1|c1
ID9	WURCS=2.0/2,3,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2-1/a3|a6-b1|c1
ID10	WURCS=2.0/2,3,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2-1/b1|c1-a3|a4|a6
    • 構造検索SPARQL作成(山田、新町@創価大)
      • Exact Substructure match(ESM):グリコシド結合が”曖昧”である場合(wurcs:isFuzzy "true")は”曖昧なグリコシド結合"、”曖昧でない"場合(wurcs:isFuzzy "false")は”曖昧でないグリコシド結合"をそれぞれ検索する方法
        • テスト糖鎖10個において、検索できた。
# ID4の糖鎖構造、ESMの条件で検索するSPARQL
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX owl: <http://www.w3.org/2002/07/owl#>
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>
PREFIX glycan: <http://purl.jp/bio/12/glyco/glycan#>
PREFIX glytoucan:  <http://www.glytoucan.org/glyco/owl/glytoucan#>
PREFIX wurcs: <http://www.glycoinfo.org/glyco/owl/wurcs#>
# SELECT
SELECT DISTINCT ?glycans
  str ( ?wurcs ) AS ?WURCS
FROM <http://www.glycoinfo.org/graph/wurcs/0.3.3>
WHERE {
# SEQ
  ?glycan glycan:has_glycosequence ?gseq 
# FILTER
  FILTER regex (str(?gseq), "^http://rdf.glycoinfo.org/glycan/") .
# BIND
  BIND( iri(replace(str(?glycan), "http://rdf.glycoinfo.org/glycan/", "http://www.glytoucan.org/glyspace/service/glycans/")) as ?glycan2)
  BIND( iri(concat(?glycan2, "/image?style=extended&format=png&notation=cfg"))as ?glycans )
# WURCS
  ?gseq glycan:has_sequence ?wurcs .
# uniqueRES
  ?gseq wurcs:has_uniqueRES   ?uRES1,  ?uRES2.
  ?uRES1 wurcs:is_monosaccharide <http://rdf.glycoinfo.org/glycan/wurcs/2.0/monosaccharide/11122h-1b_1-5> .
  ?uRES2 wurcs:is_monosaccharide <http://rdf.glycoinfo.org/glycan/wurcs/2.0/monosaccharide/21122h-1a_1-5> .
# RES
  ?RESa wurcs:is_uniqueRES ?uRES1 .
  ?RESb wurcs:is_uniqueRES ?uRES2 .
# LIN
  ?gseq wurcs:has_LIN ?LINb1a3a6 . 
# LIN1
  ?LINb1a3a6 wurcs:has_GLIPS   ?GLIPSb1 ,   ?GLIPSa3a6 .  
 
# LIN1: GLIPS1
  ?GLIPSb1 wurcs:has_GLIP ?GLIPb1 . 
  ?GLIPb1 wurcs:has_SC_position 1 .
  ?GLIPb1 wurcs:has_RES ?RESb .
  ?GLIPSb1 wurcs:isFuzzy "false"^^xsd:boolean .
# LIN1: GLIPS2
  ?GLIPSa3a6 wurcs:has_GLIP ?GLIPa3a6 . 
  ?GLIPa3 wurcs:has_SC_position 3 .
  ?GLIPa3 wurcs:has_RES ?RESa .
  ?GLIPa6 wurcs:has_SC_position 6 .
  ?GLIPa6 wurcs:has_RES ?RESa .
  ?GLIPSa3a6 wurcs:isFuzzy "true"^^xsd:boolean .
}
      • Superstructure match(SSM)
        • ESM検索のSPARQL文における "?GLIPSb1 wurcs:isFuzzy ..."部分をコメントアウトするだけではダメで、目的の糖鎖構造が取得できなかった。
    • WURCS文字列と検索オプション(検索タイプ、出力情報、LIMITなど)からSPARQLを生成(山田)
      • Exact Substructure match(ESM)を実行するSPARQLはできた。
      • 他については、SPARQLの書き方が決まったらやる予定。
  • 糖鎖構造検索のための基本単糖の検討(山田)

天然物の化学情報等のRDF化(時松、山田、櫻井、小寺、西田)

  • 天然物(アルカロイド)骨格分類データベース
    • 天然物骨格DBに骨格構造をMolfile(V2000)形式で保存、このDBのIDを仮IDとして利用する。
  • 天然物オントロジー
    • 骨格の階層分類の方針:天然物(アルカロイド)の生合成をデータ化しながら、骨格を抽出して階層について検討する。
    • ChEBIよりもDNP(Dictionary of Natural Products)に似た構造になると考えている。
    • 参考
      • SPARQLThon/天然物
      • SPARQLThon20化合物の中には複数のコンポーネントから生合成されているものがある。糖脂質(糖鎖+脂質)、アルカロイド+テルペノイド、といった化合物を RDF でどう記述するか(記述するのか)を検討
  • 天然物生合成RDF
    • 骨格の生合成
    • PIERO reaction ontology 水面下でアップデート中(小寺@東工大)
      • 現在、化合物変換を表す語彙(dehydrogenation, hydro-addition, etc)と実際の酵素反応との対応関係を整理しています(小寺)
      • 化合物を構成する化学構造については、KCF-S を用いた自動アノテーションを検討しています(小寺)
  • アトムトレース:今後の検討項目
  • KEGG compound と KEGG drugの同一entryが知れるようにしてほしい(Remark fieldがSame as…となっているもの) (2/3)
    • LinkDBには、KEGG内部のIDリンク情報がない。しかし、KEGG compound と KEGG drugは日化辞IDとつながっている。以下のRDFを取得すればできそう。
    • from "Compound" to "NIKKAJI" in format "turtle" -> download
    • from "Drug" to "NIKKAJI" in format "turtle" -> download
    • NBDC版日化辞RDF(下記参照)が公開されれば、可能になる予定。
  • ChEBI ontologyとcompoundのlinkができるような何か

KEGG PATHWAYがsupportしない(KGMLを提供していない)pathwayのRDF化(福島、西田)

NBDC版日化辞RDFデータの作成と提供準備(木村,中村@JST, 東京、櫛田)

  • NBDC版日化辞RDFデータの作成(J-Global版RDFデータの修正、追加)

NBDC版日化辞RDFデータ例(抜粋)

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix owl: <http://www.w3.org/2002/07/owl#> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix dc: <http://purl.org/dc/elements/1.1/> .
@prefix dct: <http://purl.org/dc/terms/> .
@prefix schema: <http://schema.org/> .
@prefix dbpo: <http://dbpedia.org/ontology/> .
@prefix vcard: <http://www.w3.org/2006/vcard/ns#> .
@prefix bibo: <http://purl.org/ontology/bibo/> .
@prefix prism: <http://prismstandard.org/namespaces/basic/2.0/> .
@prefix tl: <http://purl.org/NET/c4dm/timeline.owl#> .
@prefix jst: <http://vocab.jst.go.jp/terms/sti#> .
@prefix jstd: <http://vocab.jst.go.jp/terms/vlist#> .
@prefix jstpat: <http://vocab.jst.go.jp/terms/patent#> .
@prefix ndl: <http://ndl.go.jp/dcndl/terms/> .
<http://stirdf.jst.go.jp/id/200907000000088846>
	rdf:type jst:Chemical ;
	jst:nikkaji-ID-registry "02722998K" ;
	rdfs:label "4‐(トリイソプロピルシリルオキシ)フラン‐2‐カルボアルデヒド"@ja, "4-(Triisopropylsilyloxy)furan-2-carbaldehyde"@en ;
	foaf:depiction "http://api.jglobal.jst.go.jp/chemical/images/272/J2.722.998K.gif" ;
	jst:nikkaji-number "J2.722.998K" ;
        dc:identifier "J2.722.998K" ;
	owl:sameAs <http://stirdf.jst.go.jp/cde/nikkaji/J2.722.998K> ;
        jst:chem-formula "C<sub>14</sub>H<sub>24</sub>O<sub>3</sub>Si", "C14-H24-O3-SI" ;
	jst:molar-weight-min "268429" ;
	jst:molar-weight-max "-1000" ;
        rdfs:seeAlso <http://nkj-s-2.tokyo.jst.go.jp/nikkaji_web/pages/mol/>.
  • 2/3修正内容他
    • Molfile(構造画像)データのpredicate修正 (foaf:image → foaf:depiction)
    • dc:identifier "ID番号" の追加 (dc:identifier "J2.722.998K") ←RDFガイドラインに対応
    • 個々の化合物に rdf:type jst:Chemical がついていることを確認 ←RDFガイドラインに対応
  • 未対応(2/4以降対応予定)
    • SIO, CHEMINFを使ったInChI, InChIKey情報のRDFデータ作成
    • ChemSpider等のリンク情報の追加
  • トリプルストアの準備(三橋@東京))
個人用ツール