BH13.13/Arabidopsis

提供:TogoWiki

移動: 案内, 検索

目次

参加者

福島(理研CSRS)、西田(理研QBiC)

目的

genome scale metabolic model, AraCyc, KEGG, KNApSAcK 全てのlinked data化と、このlinked dataとomics dataを利用したapplicationの公開。

(上記実現に向けたdata調査、pathway 作成とそのturtle fileの試作を行う。)

背景

Arabidopsis の metabolic model reconstruction としては下記のようなものがある。


これらのmodelはFBA等を用いてgenomeから代謝反応までの関連付けを可能な限り増やしたものであるが、 modelをomics解析に利用する際に下記が困難という問題がある。

  • model, AraCyc, KEGG, KNApSAcK 間の差分の確認
    • tableのdump、KEGGのようなpathway diagram上でのhighlight
    • script言語を用いたdataのparse、join、また手作業でのmergeを必要としないdata統合
  • 全databaseのontology情報の活用
    • model中に含まれるreactionに対応するPIERO ontologyを利用した解析を行う
    • KNApSAcK のmetadataを利用した解析を行う
    • KEGGのpathway layoutを活用した可視化


その理由として各dataのopen linked data化がまだ未熟であることが挙げられる。

(ただし、AraCycについてはBioLODからRDF fileが入手可能。 https://biolod.org/database/rib39i/AraCyc_Pathway_BioPAX_Level2)

手法

そこで本groupではflavonoid pathwayの一部にしぼったTurtle fileとこれに対するSPARQL queryの試作を行った。

  • reactionのontologyには小寺さんからご提供いただいたPIERO ontology turtle fileを用いた
  • AGI(Arabidopsis Genome Initiative)のgene codeが付けられたmicroarray profileとmass profileを統合解析するuse caseを想定し、AGI codeからKNApSAcKのdataまでのlinkを確認するusecaseを想定

対象としたflavonoid pathway中のgene productとreactionの関係はwikipathways http://wikipathways.org/index.php/Pathway:WP2618 から確認できる

Screenshot 2014-01-31 09.36.07.png

作成したTurtle fileは下記

  • predicate piero:catalyzes の subject は本来はEnzymeだが頂いたversionでのPIERO ontologyにはまだ piero:encodes predicateが無かったためsubjectをEnzyme gene(uniprotのURI)としている。
@prefix knapsack: <http://kanaya.naist.jp/knapsack_jsp/information.jsp?sname=C_ID&word=> .

<http://purl.uniprot.org/tair/AT5G13930> piero:catalyzes kegg:R01613 .
<http://purl.uniprot.org/tair/AT3G55120> piero:catalyzes kegg:R02446 .
<http://purl.uniprot.org/tair/AT5G42800> piero:catalyzes kegg:R03636 .
<http://purl.uniprot.org/tair/AT4G22880> piero:catalyzes kegg:R05036 .
<http://purl.uniprot.org/tair/AT5G08640> piero:catalyzes kegg:R03126 .
kegg:R01613 piero:hasReactant kegg:C00223 .
kegg:R01613 piero:hasReactant kegg:C06561 .
kegg:R02446 piero:hasReactant kegg:C00509 .
kegg:R02446 piero:hasReactant kegg:C06561 .
kegg:R03636 piero:hasReactant kegg:C05906 .
kegg:R03636 piero:hasReactant kegg:C01617 .
kegg:R05036 piero:hasReactant kegg:C05905 .
kegg:R05036 piero:hasReactant kegg:C05906 .
kegg:R03126 piero:hasReactant kegg:C00974 .
kegg:R03126 piero:hasReactant kegg:C05903 .
kegg:C06561 rdfs:seeAlso knapsack:C00007233 .
kegg:C00509 rdfs:seeAlso knapsack:C00000982 .
kegg:C05906 rdfs:seeAlso knapsack:C00008991 .
kegg:C01617 rdfs:seeAlso knapsack:C00000677 .
kegg:C05905 rdfs:seeAlso knapsack:C00006614 .
kegg:C00974 rdfs:seeAlso knapsack:C00007234 .
kegg:C05903 rdfs:seeAlso knapsack:C00004565 .

上記Turtleと小寺さんのPIERO Turtle fileをmergeしたものをvirtuosoにimportし下記のSPARQLを適用した。

PREFIX rdfs:<http://www.w3.org/2000/01/rdf-schema#>
PREFIX piero: <http://reactionontology.org/piero/#>

SELECT ?knapsack
WHERE {
 <http://purl.uniprot.org/tair/AT5G13930> piero:catalyzes ?o .
 ?o piero:hasReactant ?kegg_cid .
 ?kegg_cid rdfs:seeAlso ?knapsack
}

これによりAGI code AT5G13930に対応付けられたKNApSAcK中のcompound C00007233 へのlinkを容易に得ることが可能となった。

Screenshot 2014-01-31 11.21.24.png Screenshot 2014-01-31 11.22.24.png

結果と考察

TAIR, KEGG, KNApSAcKをつなぐRDFの1例を示した。 RDF導入により

が統一的にあつかえることが明らかとなった。

このように遺伝子、化合物の対応付けが容易になることで発現、mass profileの統合解析applicationの作成を推進することが期待される。


memo

河野さんのuniprot調査結果

http://wiki.lifesciencedb.jp/mw/index.php/BH11.11/%E7%B5%B1%E5%90%88%E6%A4%9C%E7%B4%A2%E3%81%A8RDF%E3%81%8B%E3%82%89%E3%81%AE%E8%A1%A8%E3%83%87%E3%83%BC%E3%82%BF%E7%94%9F%E6%88%90/uniprot_sparql

省略記法、以降略記up:が利用可能

PREFIX up:<http://purl.uniprot.org/core/>

Arabidopsis(taxonomy id 3702) のprotein entry pageへのURIのlistを得る。 a は rdf:type の省略記法

PREFIX up:<http://purl.uniprot.org/core/>
SELECT ?protein
WHERE
{
 ?protein up:organism <http://purl.uniprot.org/taxonomy/3702> .
 ?protein a up:Protein .
}  LIMIT 10

Arabiのproteinにどのようなpredicateがあるか調べる。

PREFIX up:<http://purl.uniprot.org/core/>
SELECT DISTINCT ?p
WHERE
{
 ?protein up:organism <http://purl.uniprot.org/taxonomy/3702> .
 ?protein a up:Protein .
 ?protein ?p ?o
} 

Arabiのproteinが持っている情報を全て出力する。

PREFIX up:<http://purl.uniprot.org/core/>
SELECT ?protein ?p ?o
WHERE
{
 ?protein up:organism <http://purl.uniprot.org/taxonomy/3702> .
 ?protein a up:Protein .
 ?protein ?p ?o
} 

Screenshot 2014-01-30 16.19.57.png


手持ちのdataがTAIRに基づいたものである場合のuniprot rdf探索の手順

1. まず適当なTAIRのURIからoとするuriを調べる。TAIRのURIは前述のSPARQL結果からわかる。

PREFIX up:<http://purl.uniprot.org/core/>
SELECT ?p ?o
WHERE
{
 <http://purl.uniprot.org/tair/AT1G22300> ?p ?o
}

Screenshot 2014-01-30 16.15.01.png

2. 1. からTAIRへのlinkがあるURIのlistは下記で得られる

PREFIX up:<http://purl.uniprot.org/core/>
SELECT ?s
WHERE
{
 ?s <http://purl.uniprot.org/core/database> <http://purl.uniprot.org/database/TAIR>
}

Screenshot 2014-01-30 16.28.21.png

3. 手持ちのTAIRのATG code AT1G22300に対応するUniprot entry URIを得る

#PREFIX rdfs:<http://www.w3.org/2000/01/rdf-schema#> 

SELECT ?s
WHERE
{
 ?s rdfs:seeAlso <http://purl.uniprot.org/tair/AT1G22300> 
}
個人用ツール