BH14.14/compound
提供:TogoWiki
目次 |
化合物関連情報のRDF化
- メンバー: 櫻井、山田、時松、福島、西田、櫛田
- サテライト参加:小寺、木村、三橋、新町、中村
精密質量MSのピークアノテーション(櫻井)
- 精密質量MSのピークアノテーションにおける、イオン化状態(アダクト)の判定アルゴリズムを完成させる
完成させた。
1)指定した上限数の中性の脱離・付加(H2O、アセニト等)、および2)イオン化(プロトン付加、ナトリウム付加等)の組み合わせを解析して、適切なイオンの状態を判別できるようにした。
糖鎖構造のRDF化とSPARQL(山田、新町)
国際糖鎖構造リポジトリGlyTouCanにおいて現在利用している検索ツールは、GlcNAcを検索する場合でもGlcを含んで検索してしまう問題がある。この問題を糖鎖線形表記(WURCS)をRDF化したWURCS-RDFとSPARQLで構造検索を実現したい。 (参考SPARQLthon/glycan/wurcsRDF)
- 糖鎖構造のRDF化(山田)
- WURCS to WURCS-RDF修正: 糖鎖構造の線形文字列表記(WURCS)を、WURCS-RDF形式へ変換するツールの改良
- 糖鎖構造検索
テスト糖鎖のWURCS ID1 WURCS=2.0/2,3,2/[11122h-1b_1-5][21122h-1a_1-5]/1-2-2/a3-b1_a6-c1 ID2 WURCS=2.0/2,2,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2/a3-b1 ID3 WURCS=2.0/2,2,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2/a6-b1 ID4 WURCS=2.0/2,2,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2/b1-a3|a6 ID5 WURCS=2.0/2,2,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2/b1-a4|a6 ID6 WURCS=2.0/2,2,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2/b1-a3|a4|a6 ID7 WURCS=2.0/2,3,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2-1/a3|a4-b1|c1 ID8 WURCS=2.0/2,3,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2-1/a4|a6-b1|c1 ID9 WURCS=2.0/2,3,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2-1/a3|a6-b1|c1 ID10 WURCS=2.0/2,3,1/[11122h-1b_1-5][21122h-1a_1-5]/1-2-1/b1|c1-a3|a4|a6
- 構造検索SPARQL作成(山田、新町@創価大)
- Exact Substructure match(ESM):グリコシド結合が”曖昧”である場合(wurcs:isFuzzy "true")は”曖昧なグリコシド結合"、”曖昧でない"場合(wurcs:isFuzzy "false")は”曖昧でないグリコシド結合"をそれぞれ検索する方法
- テスト糖鎖10個において、検索できた。
- Exact Substructure match(ESM):グリコシド結合が”曖昧”である場合(wurcs:isFuzzy "true")は”曖昧なグリコシド結合"、”曖昧でない"場合(wurcs:isFuzzy "false")は”曖昧でないグリコシド結合"をそれぞれ検索する方法
- 構造検索SPARQL作成(山田、新町@創価大)
# ID4の糖鎖構造、ESMの条件で検索するSPARQL PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> PREFIX owl: <http://www.w3.org/2002/07/owl#> PREFIX xsd: <http://www.w3.org/2001/XMLSchema#> PREFIX glycan: <http://purl.jp/bio/12/glyco/glycan#> PREFIX glytoucan: <http://www.glytoucan.org/glyco/owl/glytoucan#> PREFIX wurcs: <http://www.glycoinfo.org/glyco/owl/wurcs#> # SELECT SELECT DISTINCT ?glycans str ( ?wurcs ) AS ?WURCS FROM <http://www.glycoinfo.org/graph/wurcs/0.3.3> WHERE { # SEQ ?glycan glycan:has_glycosequence ?gseq # FILTER FILTER regex (str(?gseq), "^http://rdf.glycoinfo.org/glycan/") . # BIND BIND( iri(replace(str(?glycan), "http://rdf.glycoinfo.org/glycan/", "http://www.glytoucan.org/glyspace/service/glycans/")) as ?glycan2) BIND( iri(concat(?glycan2, "/image?style=extended&format=png¬ation=cfg"))as ?glycans ) # WURCS ?gseq glycan:has_sequence ?wurcs . # uniqueRES ?gseq wurcs:has_uniqueRES ?uRES1, ?uRES2. ?uRES1 wurcs:is_monosaccharide <http://rdf.glycoinfo.org/glycan/wurcs/2.0/monosaccharide/11122h-1b_1-5> . ?uRES2 wurcs:is_monosaccharide <http://rdf.glycoinfo.org/glycan/wurcs/2.0/monosaccharide/21122h-1a_1-5> . # RES ?RESa wurcs:is_uniqueRES ?uRES1 . ?RESb wurcs:is_uniqueRES ?uRES2 . # LIN ?gseq wurcs:has_LIN ?LINb1a3a6 . # LIN1 ?LINb1a3a6 wurcs:has_GLIPS ?GLIPSb1 , ?GLIPSa3a6 . # LIN1: GLIPS1 ?GLIPSb1 wurcs:has_GLIP ?GLIPb1 . ?GLIPb1 wurcs:has_SC_position 1 . ?GLIPb1 wurcs:has_RES ?RESb . ?GLIPSb1 wurcs:isFuzzy "false"^^xsd:boolean . # LIN1: GLIPS2 ?GLIPSa3a6 wurcs:has_GLIP ?GLIPa3a6 . ?GLIPa3 wurcs:has_SC_position 3 . ?GLIPa3 wurcs:has_RES ?RESa . ?GLIPa6 wurcs:has_SC_position 6 . ?GLIPa6 wurcs:has_RES ?RESa . ?GLIPSa3a6 wurcs:isFuzzy "true"^^xsd:boolean . }
- Superstructure match(SSM)
- ESM検索のSPARQL文における "?GLIPSb1 wurcs:isFuzzy ..."部分をコメントアウトするだけではダメで、目的の糖鎖構造が取得できなかった。(2/3)
- ESM検索のSPARQL文における "?GLIPSb1 wurcs:isFuzzy ..."と"wurcs:has_GLIP"のFILTERを組み合わせることで、ID2~ID10は目的の検索ができたが、ID1はダメだった。(2/4)
- Superstructure match(SSM)
# ESM検索からの変更箇所 # LIN1: GLIPS1 ?GLIPSa3 wurcs:has_GLIP ?GLIPa3 FILTER ( ?GLIPa3 = ?GLIPa3 ) ?GLIPa3 wurcs:has_SC_position 3 . ?GLIPa3 wurcs:has_RES ?RESa . # ?GLIPSa3 wurcs:isFuzzy "fasle"^^xsd:boolean . # LIN1: GLIPS2 ?GLIPSb1 wurcs:has_GLIP ?GLIPb1 FILTER ( ?GLIPb1 = ?GLIPb1 ) ?GLIPb1 wurcs:has_SC_position 1 . ?GLIPb1 wurcs:has_RES ?RESb . # ?GLIPSb1 wurcs:isFuzzy "fasle"^^xsd:boolean .
- WURCS文字列と検索オプション(検索タイプ、出力情報、LIMITなど)からSPARQLを生成(山田)
- Exact Substructure match(ESM)を実行するSPARQLはできた。
- 他については、SPARQLの書き方が決まったらやる予定。
- WURCS文字列と検索オプション(検索タイプ、出力情報、LIMITなど)からSPARQLを生成(山田)
- 糖鎖構造検索のための基本単糖の検討(山田)
天然物の化学情報等のRDF化(時松、山田、櫻井、小寺、西田)
- 既存vocabulary
- 天然物(アルカロイド)骨格分類データベース
- 天然物骨格DBに骨格構造をMolfile(V2000)形式で保存、このDBのIDを仮IDとして利用する。(2/3)
- chemdoodleを利用した骨格の化学構造表示に一部変更~結合表示等の問題解決のため~(2/4)
- 今後、化学構造(糖鎖構造)をSVGで表示するStanza:JavaScriptを作りたい。(山田)
- D3.jsを利用する予定 参考サイト Graceful Tree Conjecture, OrgoShmorgo
- 今後、化学構造(糖鎖構造)をSVGで表示するStanza:JavaScriptを作りたい。(山田)
- 天然物オントロジー
- 骨格の階層分類の方針:天然物(アルカロイド)の生合成をデータ化しながら、骨格を抽出して階層について検討する。
- ChEBIよりもDNP(Dictionary of Natural Products)に似た構造になると考えている。
- 参考
- SPARQLThon/天然物
- SPARQLThon20化合物の中には複数のコンポーネントから生合成されているものがある。糖脂質(糖鎖+脂質)、アルカロイド+テルペノイド、といった化合物を RDF でどう記述するか(記述するのか)を検討
- 天然物生合成RDF
- 骨格の生合成
- PIERO reaction ontology 水面下でアップデート中(小寺@東工大)
- PIEROのttlのbulkload方法
- 現在、化合物変換を表す語彙(dehydrogenation, hydro-addition, etc)と実際の酵素反応との対応関係を整理しています(小寺)
- 化合物を構成する化学構造については、KCF-S を用いた自動アノテーションを検討しています(小寺)
- (mass profile databaseなどに含まれるpathwayとの関連付けが望まれる)metaboliteでKEGGのIDと1対1の対応が付けることができないcompoundは多く存在する。自動アノテーションが実現されればこの問題の解決の第一歩となる。1対1の対応でなくてよいので「pathwayの大体どのあたりか」でよいので自動で対応付けを行ってくれる機能が求められている (expertでない者はそのような対応付けを行うことができない)。
- なるほど、化合物中の部分構造を自動生成して、それに対応するパスウェイをリストアップするようなことが出来れば良いということでしょうか?KEGG pathwayとの対応関係でしたら、できるかも知れません。試してみます(小寺)
- 自動生成とは独立に生合成知識ベースでの骨格のデータベース化と階層分類(Ontology?)は必要と思いますがどうでしょう(時松:作業中)
- はい、必要だと思います。知識ベースのほうは、ぼくはしばらく手を出せないと思いますので、よろしくお願いします。将来的には、それとKCF-Sとの対応関係も整理できると良いですね。(小寺)
- はいほぼ仰る通りです。私はUser視点で「自動生成か」「知識ベース」かに拘りがなく、(最悪の場合)名前しか情報として持たないようなmetaboliteのlistからでもpathwayをlistupしてくれるような機能があると助かる、と考えています。時松さんに頼りっきりですがassignしたいmetaboliteの分類としては「metaboliteにはKEGG IDが付くもの」「KNApSAcK IDしか付かないもの」「名前しかないもの」の順にひどくなる感じです (西田)
- アトムトレース:今後の検討項目
- 化合物アラインメントによる自動計算結果を蓄積することはできないでしょうかね?(小寺)
- 蓄積方法を考えたいですね。原子レベルに加えて、生合成のビルディングブロックのトレースを蓄積、表示できる方法がほしいなと(時松)
- KEGG compound と KEGG drugの同一entryが知れるようにしてほしい(Remark fieldがSame as…となっているもの) (2/3)
- LinkDBには、KEGG内部のIDリンク情報がない。しかし、KEGG compound と KEGG drugは日化辞IDとつながっている。以下のRDFを取得すればできそう。
- from "Compound" to "NIKKAJI" in format "turtle" -> download
- from "Drug" to "NIKKAJI" in format "turtle" -> download
- NBDC版日化辞RDF(下記参照)が公開されれば、可能になる予定。
- ChEBI ontologyとcompoundのlinkができるような何か(2/3)
- LinkDBで同様に
- from "Compound" to "ChEBI" in format "turtle" -> download
KEGG PATHWAYを補完したpathway上でのmetabolome profileの可視化(西田、福島、時松)
- (動機、目的) in houseのplant metabolome profileの全てを pathway 上で可視化したい
- KEGGのcompound IDとの1対1の対応付けでは同定したmetaboliteの半数ほどしか関連付けができない
- 関連付けができないものの多くは二次代謝産物が多い
- しかしながら関連付けができないmetaboliteも「pathwayの大体どのあたりにassignすればよいか」がわからないわけではない
- 「expertが目で確認すれば」できないわけではない
- これを自動で行うsystemの確立がしたい
- そのためのRDF活用方法の検討 (前節「天然物の化学情報等のRDF化」の実用例)
- KEGGのcompound IDとの1対1の対応付けでは同定したmetaboliteの半数ほどしか関連付けができない
- (現状行えることとして) 手作業でmetaboliteをmap, assign, layoutしたpathwayのWikipathwaysでの公開
- BH14.14中でのsystemの実現は困難
- 何故Wikipathwaysか
- 試験的ではあるがWikipathwaysで公開したpathwayのRDF dumpが行われている (http://www.wikipathways.org/index.php/Help:WikiPathways_RDF)
- Visualizationのためのpathway layoutをsupportしたRDF
- Userが改変可能なpathway RDF
- AtMetExpressにある化合物ID対応のマニュアルキュレーション(時松)
NBDC版日化辞RDFデータの作成と提供準備(木村,中村,三橋@JST(東京)、櫛田)
- NBDC版日化辞RDFデータの作成(J-Global版RDFデータの修正、追加)
最新のNBDC版日化辞RDFデータ例(抜粋)
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> . @prefix owl: <http://www.w3.org/2002/07/owl#> . @prefix foaf: <http://xmlns.com/foaf/0.1/> . @prefix dc: <http://purl.org/dc/elements/1.1/> . @prefix dct: <http://purl.org/dc/terms/> . @prefix schema: <http://schema.org/> . @prefix dbpo: <http://dbpedia.org/ontology/> . @prefix vcard: <http://www.w3.org/2006/vcard/ns#> . @prefix bibo: <http://purl.org/ontology/bibo/> . @prefix prism: <http://prismstandard.org/namespaces/basic/2.0/> . @prefix tl: <http://purl.org/NET/c4dm/timeline.owl#> . @prefix jst: <http://vocab.jst.go.jp/terms/sti#> . @prefix jstd: <http://vocab.jst.go.jp/terms/vlist#> . @prefix jstpat: <http://vocab.jst.go.jp/terms/patent#> . @prefix ndl: <http://ndl.go.jp/dcndl/terms/> . <http://stirdf.jst.go.jp/id/200907000000088846> rdf:type jst:Chemical ; jst:nikkaji-ID-registry "02722998K" ; rdfs:label "4‐(トリイソプロピルシリルオキシ)フラン‐2‐カルボアルデヒド"@ja, "4-(Triisopropylsilyloxy)furan-2-carbaldehyde"@en ; foaf:depiction "http://api.jglobal.jst.go.jp/chemical/images/272/J2.722.998K.gif" ; jst:nikkaji-number "J2.722.998K" ; dc:identifier "J2.722.998K" ; owl:sameAs <http://stirdf.jst.go.jp/cde/nikkaji/J2.722.998K> ; jst:chem-formula "C<sub>14</sub>H<sub>24</sub>O<sub>3</sub>Si", "C14-H24-O3-SI" ; jst:molar-weight-min "268429" ; jst:molar-weight-max "-1000". <http://stirdf.jst.go.jp/cde/nikkaji/J2.722.998K> jst:InChI "InChI=1S/C14H24O3Si/c1-10(2)18(11(3)4,12(5)6)17-14-7-13(8-15)16-9-14/h7-12H,1-6H3" ; jst:InChIKey "JIUJGYWGJHLBIJ-UHFFFAOYSA-N" ; <http://semanticscience.org/resource/CHEMINF_000200> <http://stirdf.jst.go.jp/cde/nikkaji/J2.722.998K_standard_inchi>, <http://stirdf.jst.go.jp/cde/nikkaji/J2.722.998K_standard_inchi_key>. <http://stirdf.jst.go.jp/cde/nikkaji/J2.722.998K_standard_inchi> <http://semanticscience.org/resource/SIO_000300> "InChI=1S/C14H24O3Si/c1-10(2)18(11(3)4,12(5)6)17-14-7-13(8-15)16-9-14/h7-12H,1-6H3"; rdf:type <http://semanticscience.org/resource/CHEMINF_000113>. <http://stirdf.jst.go.jp/cde/nikkaji/J2.722.998K_standard_inchi> <http://semanticscience.org/resource/SIO_000300> "JIUJGYWGJHLBIJ-UHFFFAOYSA-N"; rdf:type <http://semanticscience.org/resource/CHEMINF_000059>. <http://semanticscience.org/resource/CHEMINF_000200> rdfs:label "has attribute". <http://semanticscience.org/resource/SIO_000300> rdfs:label "has value". <http://semanticscience.org/resource/CHEMINF_000113> rdfs:label "InChI descriptor". <http://semanticscience.org/resource/CHEMINF_000113> rdfs:label "InChIKey".
- 修正・追加の内容(2/2-4)
J-Global版日化辞RDFデータのInChI,InChIKey情報の記述例
<http://stirdf.jst.go.jp/cde/nikkaji/J2.722.998K> jst:InChI "InChI=1S/C14H24O3Si/c1-10(2)18(11(3)4,12(5)6)17-14-7-13(8-15)16-9-14/h7-12H,1-6H3" ; jst:InChIKey "JIUJGYWGJHLBIJ-UHFFFAOYSA-N" .
↓↓↓
NBDC版日化辞RDFデータのInChI,InChIKey情報の記述例(SIO, CHEMINFを使用)
<http://stirdf.jst.go.jp/cde/nikkaji/J2.722.998K> jst:InChI "InChI=1S/C14H24O3Si/c1-10(2)18(11(3)4,12(5)6)17-14-7-13(8-15)16-9-14/h7-12H,1-6H3" ; jst:InChIKey "JIUJGYWGJHLBIJ-UHFFFAOYSA-N" ; <http://semanticscience.org/resource/CHEMINF_000200> <http://stirdf.jst.go.jp/cde/nikkaji/J2.722.998K_standard_inchi>, <http://stirdf.jst.go.jp/cde/nikkaji/J2.722.998K_standard_inchi_key>. <http://stirdf.jst.go.jp/cde/nikkaji/J2.722.998K_standard_inchi> <http://semanticscience.org/resource/SIO_000300> "InChI=1S/C14H24O3Si/c1-10(2)18(11(3)4,12(5)6)17-14-7-13(8-15)16-9-14/h7-12H,1-6H3"; rdf:type <http://semanticscience.org/resource/CHEMINF_000113>. <http://stirdf.jst.go.jp/cde/nikkaji/J2.722.998K_standard_inchi> <http://semanticscience.org/resource/SIO_000300> "JIUJGYWGJHLBIJ-UHFFFAOYSA-N"; rdf:type <http://semanticscience.org/resource/CHEMINF_000059>. <http://semanticscience.org/resource/CHEMINF_000200> rdfs:label "has attribute". <http://semanticscience.org/resource/SIO_000300> rdfs:label "has value". <http://semanticscience.org/resource/CHEMINF_000113> rdfs:label "InChI descriptor". <http://semanticscience.org/resource/CHEMINF_000113> rdfs:label "InChIKey".
- 2/5以降対応予定
- ChemSpider等のリンク情報の追加
- smiles情報の追加
- トリプルストアの準備(三橋@東京)