SPARQLthon/RefExRDF

提供:TogoWiki

移動: 案内, 検索

目次

RefEx RDF

概要

BioHackathon 2014 で着手した、RefEx のRDF化を行う。

背景

  • DBCLS/NBDC は、独自のデータもRDFで公開していくべきである。
  • 将来公開されるであろう、NBDC RDF ポータルサイトのコンテンツになる。
  • RefEx は、今後も新しいタイプのデータ(例えば、遺伝子発現情報をTPM以外の尺度で計算する等)を追加していく計画があるが、現在RDBで実装されているためスキーマの変更に弱いという問題があった。RDFでデータを記述することで、その問題を克服したい。

BioHackathon 2014での成果

  • FATOM5 由来のヒトの遺伝子発現情報のみRDF化した。
  • RDF化に必要な簡単なオントロジーを開発した(RefExO)
  • RefEx は、RDFの主語となるようなリソースがなかったために、各遺伝子発現の値に対して、refexo:RefExEntryクラスのインスタンスとして、URIを定義することにした。
  • 各遺伝子発現の値は、1) GeneID, 2) サンプル の2つのリソースを定義することで特定できる。
refex:RFX00000089       a       refexo:RefExEntry .
refex:RFX00000089       dc:identifier                 "RFX00000089" .
refex:RFX00000089       rdfs:seeAlso                 <http://www.ncbi.nlm.nih.gov/gene/2> .
refex:RFX00000089       refexo:refexSampe       refexs:RES00000090 .
refex:RFX00000089       refexo:expValue           "2.9646523689781"^^refexo:TPM .

サンプルについても refexo:RefExSample クラスのインスタンスとして、独自にURIを定義した。

FANTOM5のサンプルの場合、BioSample IDも持っているので、そこへのidentifiers.orgのリンクを追加した。 また、一部のメタデータについては、オントロジーのマップ(性別はPATO、年齢についてはUO、臓器についてはUBERON等)。

refexs:RES00000006
    refexo:age                                "57"^^obo:UO_0000036 ;
    refexo:biosample                      bs:SAMD00005659 ;
    refexo:fantomSample                <http://fantom.gsc.riken.jp/5/sstar/FF:10789-110H6> ;
    refexo:originalDescription         "TPM (tags per million) of acute myeloid leukemia (FAB M0) cell line:Kasumi-3.CNhs13241.10789-110H6" ;
    refexo:refexRefinedDescription "acute myeloid leukemia (FAB M0) cell line:Kasumi-3" ;
    refexo:refexSampleCategory     "00cell line" ;
    refexo:sex                                obo:PATO_0000384 ;
    dc:identifer                               "RES00000006" ;
    a                                               refexo:RefExSample .


結果として、以下のRDF、データを生成した。

  • RefEx ontology
  • RefEx Fantom5 Sample RDF (Human): 6,059 triples
  • RefEx Fantom5 Expression RDF (Human): 51,431,421 triples


  • SPARQL例
PREFIX obo: <http://purl.obolibrary.org/obo/>
PREFIX refexo: <http://purl.jp/bio/01/refexo#>
 
SELECT ?entry ?sample ?age ?desc ?ev
FROM <http://refex.dbcls.jp/>
WHERE {
  ?entry refexo:refexSample ?sample .
  ?sample refexo:sex obo:PATO_0000383 .
  ?sample refexo:age ?age .
  ?sample refexo:refexRefinedDescription ?desc .
  ?entry refexo:expValue ?ev .
  FILTER(REGEX(?desc, "Smooth Muscle Cells"))
  FILTER(xsd:integer(?age) > 55)
  FILTER(xsd:float(?ev) > 7.0)
}

今後の計画

  • FANTOM5以外のデータ(GeneChip, RNA-seq, EST)もRDF化する。
  • FANTOMの場合、特にサンプルの臓器や細胞の情報が詳しく記載されているので、それらにUBERONや、Cell Ontology 等をマップする。
  • 現在のデータの既知問題点を解決するデータ構造の設計。
  • ExpressionAtlas と比較できるようなオントロジーおよびデータモデルの設計。
  • Stanza で、現状提供されているようなビューの再構築。
  • TogoGenome への組み込み。
/mw/SPARQLthon/RefExRDF」より作成