SPARQLthon/RefExRDF
提供:TogoWiki
目次 |
RefEx RDF
概要
BioHackathon 2014 で着手した、RefEx のRDF化を行う。
背景
- DBCLS/NBDC は、独自のデータもRDFで公開していくべきである。
- 将来公開されるであろう、NBDC RDF ポータルサイトのコンテンツになる。
- RefEx は、今後も新しいタイプのデータ(例えば、遺伝子発現情報をTPM以外の尺度で計算する等)を追加していく計画があるが、現在RDBで実装されているためスキーマの変更に弱いという問題があった。RDFでデータを記述することで、その問題を克服したい。
BioHackathon 2014での成果
- FATOM5 由来のヒトの遺伝子発現情報のみRDF化した。
- RDF化に必要な簡単なオントロジーを開発した(RefExO)
- RefEx は、RDFの主語となるようなリソースがなかったために、各遺伝子発現の値に対して、refexo:RefExEntryクラスのインスタンスとして、URIを定義することにした。
- 各遺伝子発現の値は、1) GeneID, 2) サンプル の2つのリソースを定義することで特定できる。
refex:RFX00000089 a refexo:RefExEntry . refex:RFX00000089 dc:identifier "RFX00000089" . refex:RFX00000089 rdfs:seeAlso <http://www.ncbi.nlm.nih.gov/gene/2> . refex:RFX00000089 refexo:refexSampe refexs:RES00000090 . refex:RFX00000089 refexo:expValue "2.9646523689781"^^refexo:TPM .
サンプルについても refexo:RefExSample クラスのインスタンスとして、独自にURIを定義した。
FANTOM5のサンプルの場合、BioSample IDも持っているので、そこへのidentifiers.orgのリンクを追加した。 また、一部のメタデータについては、オントロジーのマップ(性別はPATO、年齢についてはUO、臓器についてはUBERON等)。
refexs:RES00000006 refexo:age "57"^^obo:UO_0000036 ; refexo:biosample bs:SAMD00005659 ; refexo:fantomSample <http://fantom.gsc.riken.jp/5/sstar/FF:10789-110H6> ; refexo:originalDescription "TPM (tags per million) of acute myeloid leukemia (FAB M0) cell line:Kasumi-3.CNhs13241.10789-110H6" ; refexo:refexRefinedDescription "acute myeloid leukemia (FAB M0) cell line:Kasumi-3" ; refexo:refexSampleCategory "00cell line" ; refexo:sex obo:PATO_0000384 ; dc:identifer "RES00000006" ; a refexo:RefExSample .
結果として、以下のRDF、データを生成した。
- RefEx ontology
- RefEx Fantom5 Sample RDF (Human): 6,059 triples
- RefEx Fantom5 Expression RDF (Human): 51,431,421 triples
- SPARQL例
PREFIX obo: <http://purl.obolibrary.org/obo/> PREFIX refexo: <http://purl.jp/bio/01/refexo#> SELECT ?entry ?sample ?age ?desc ?ev FROM <http://refex.dbcls.jp/> WHERE { ?entry refexo:refexSample ?sample . ?sample refexo:sex obo:PATO_0000383 . ?sample refexo:age ?age . ?sample refexo:refexRefinedDescription ?desc . ?entry refexo:expValue ?ev . FILTER(REGEX(?desc, "Smooth Muscle Cells")) FILTER(xsd:integer(?age) > 55) FILTER(xsd:float(?ev) > 7.0) }
今後の計画
- FANTOM5以外のデータ(GeneChip, RNA-seq, EST)もRDF化する。
- FANTOMの場合、特にサンプルの臓器や細胞の情報が詳しく記載されているので、それらにUBERONや、Cell Ontology 等をマップする。
- 現在のデータの既知問題点を解決するデータ構造の設計。
- ExpressionAtlas と比較できるようなオントロジーおよびデータモデルの設計。
- Stanza で、現状提供されているようなビューの再構築。
- TogoGenome への組み込み。