INSDC
提供:TogoWiki
International Nucleotide Sequence Database Collaboration (INSDC) http://www.insdc.org で扱うデータベースについてまとめています。
目次 |
RDFization
誰
- 藤澤 (DDBJ validator)
- 山田 (糖鎖DB)
- 小林 (理研metaDB)
- 仲里/おおた (DBCLS/DDBJ DRA検索)
- おおた (ChIP-Atlas)
SPARQLthon 61
- BioProject の変換スクリプトを修正していた
- https://github.com/inutano/ld-sra
- BioProject のデータ構造が邪悪すぎて心が折れそう
- そもそもなんで Project のデータベースなのに Sample organisms の情報がやたら入っているのか
- それは BioSamples に書くべき情報ではないのか
- 例外処理を死ぬほど書くか、すっぱり落とすか悩んでいたが、すっぱり落とすことにした
BioHackathon2017
- Thomas と一緒に BioSamples の RDF 化の作業をしました
- 現行の EBI BioSamples RDF のモデルは古く、使いにくいと思われているので、変更する
- EBI BioSamples API が よしなに構造を綺麗にした JSON を返すので、その構造を元に turtle をつくる script を書いた: github.com/lltommy/REST_to_RDF/
- GWAS の DB でも同じく API -> JSON -> RDF にしたいとのこと
- 一緒に RDF モデルを作った
- 特に空白ノードを駆使して key-value の情報を収めるためのデータ構造を設計した
- あとは足りない predicate を補うことで ready to deploy な RDF データができる予定
- BioProject/SRA については EBI は今のところ何もしない予定なのでこちらでやる
SPARQLthon59
以下のような議論をしました。
対象DB
2017/08 以下のデータベースをRDF化する必要が生じています。
- BioProject
- BioSample
- SRA metadata
- Submission
- Project (deprecated, used as alias of BioProject)
- Sample (deprecated, used as alias of BioSample)
- Experiment
- Run
- Analysis
このうち、BioSample は EBI が頑張っています。昔は、Expression Atlas に紐づく BioSample だけでしたが、今は NCBI/DDBJ から交換されるものもRDF化されています。さらに、Experimental Factor Ontology (EFO) を使ってキュレーションもしているそうです。なので、BioSample については彼らが作ってくれた RDF を使うことにして、我々はRDFを作らない。BioProject/SRA については、彼らの直近のマイルストーンには含まれないとのことなので、こちらでRDFを作ることにしました。
EBI BioSample をそのまま使うにあたっての問題/懸念もある。
- NCBI/DDBJ/EBI の exchange に乗らないもの (INSDCの範囲外) は RDF化されない
- NCBI独自の BioSample がこれに該当する
- ATCC の culture collection とか
- DDBJ独自の BioSample というものも将来的にできる可能性はある
- 誰がどうやって作る/維持する?
- NCBI独自の BioSample がこれに該当する
- EBI BioSample は DDBJ/NCBI BioSample と微妙にデータモデルが違う
- EBI BioSample は SampleGroup という概念があるがDDBJ/NCBIにはない
- RDFデータの流用については影響はなさそうなので今は気にしない
- EBI BioSample は SampleGroup という概念があるがDDBJ/NCBIにはない
これらについては困ったときに困った人がなんとかすることにして今は気にしない。
データモデル
EBI BioSample RDF は幾度かのモデル変更を経て(?)今は下のような感じになっている。
<http://rdf.ebi.ac.uk/resource/biosamples/sample/SAMD00035437> a <http://rdf.ebi.ac.uk/terms/biosd/Sample>; <http://rdf.ebi.ac.uk/terms/biosd/has-sample-attribute> <http://rdf.ebi.ac.uk/resource/biosamples/exp-prop-val/GNC-SAMD00035437#236f55982fd53526660a0b41fbba22dc> . <http://rdf.ebi.ac.uk/resource/biosamples/exp-prop-val/GNC-SAMD00035437#236f55982fd53526660a0b41fbba22dc> rdfs:label "Mus musculus"; a <http://purl.obolibrary.org/obo/NCBITaxon_10090> .
あらゆる属性について、biosample エントリが has-sample-attribute で namedIndividual を持っていて、その下にラベルでオリジナルのメタデータ記述、type指定でアノテーションをつけている。BioSampleは登録者がオリジナルのkeyを指定できるので、keyごとにpredicateを作るとかやらないでいいようになっている。さらに、これを拡張したい(キュレーションしたい)ときは、namedIndividual に type を追加することで実現できる (と思う)。
問題は、
- value はラベルに残っとるけど key どこいったんや -> 要調査
- named individual の uuid これ管理どうしてんの、アップデートとかしても維持されるの?
- identifiers.org の ID 使ってくれよ
- id.org/biosample はちゃんとあるのでRDFの中にもこれ入れてほしい
- taxonomy も obo の class 指定だけでなくて id.org の URI にどげんかして繋げてほしい
- EBI に submit された BioSample 以外はキュレーションしてない??
このあたりを EBI RDF チームに聞いて/お願いしてみます。
SRA/BioProject は、オリジナルのメタデータが XML で公開されているので、これをまず json-ld に変換する系をつくります (おおた)。モデルは BioSample に従って、オントロジーは既に理研小林さんが作られたものをなるべく流用します。できたRDFはRDFポータルに突っ込んで、ドッグラン大石さんに開発してもらっている SRA/BioSample/BioProject の検索エンジンに組み込んで、検索結果が json-ld で返ってくるようにする (予定)。