INSDC

提供:TogoWiki

2017年8月31日 (木) 09:04時点におけるTazro inutano ohta (トーク | 投稿記録)による版
移動: 案内, 検索

International Nucleotide Sequence Database Collaboration (INSDC) http://www.insdc.org で扱うデータベースについてまとめています。

目次

RDFization

  • 藤澤 (DDBJ validator)
  • 山田 (糖鎖DB)
  • 小林 (理研metaDB)
  • 仲里/おおた (DBCLS/DDBJ DRA検索)
  • おおた (ChIP-Atlas)

対象DB

2017/08 以下のデータベースをRDF化する必要が生じています。

  • BioProject
  • BioSample
  • SRA metadata
    • Submission
    • Project (deprecated, used as alias of BioProject)
    • Sample (deprecated, used as alias of BioSample)
    • Experiment
    • Run
    • Analysis

このうち、BioSample は EBI が頑張っています。昔は、Expression Atlas に紐づく BioSample だけでしたが、今は NCBI/DDBJ から交換されるものもRDF化されています。さらに、Experimental Factor Ontology (EFO) を使ってキュレーションもしているそうです。なので、BioSample については彼らが作ってくれた RDF を使うことにして、我々はRDFを作らない。BioProject/SRA については、彼らの直近のマイルストーンには含まれないとのことなので、こちらでRDFを作ることにしました。

EBI BioSample をそのまま使うにあたっての問題/懸念もある。

  • NCBI/DDBJ/EBI の exchange に乗らないもの (INSDCの範囲外) は RDF化されない
    • NCBI独自の BioSample がこれに該当する
      • ATCC の culture collection とか
    • DDBJ独自の BioSample というものも将来的にできる可能性はある
    • 誰がどうやって作る/維持する?
  • EBI BioSample は DDBJ/NCBI BioSample と微妙にデータモデルが違う
    • EBI BioSample は SampleGroup という概念があるがDDBJ/NCBIにはない
      • RDFデータの流用については影響はなさそうなので今は気にしない

これらについては困ったときに困った人がなんとかすることにして今は気にしない。

データモデル

EBI BioSample RDF は幾度かのモデル変更を経て(?)今は下のような感じになっている。

<http://rdf.ebi.ac.uk/resource/biosamples/sample/SAMD00035437> a <http://rdf.ebi.ac.uk/terms/biosd/Sample>;
  <http://rdf.ebi.ac.uk/terms/biosd/has-sample-attribute> <http://rdf.ebi.ac.uk/resource/biosamples/exp-prop-val/GNC-SAMD00035437#236f55982fd53526660a0b41fbba22dc> .
<http://rdf.ebi.ac.uk/resource/biosamples/exp-prop-val/GNC-SAMD00035437#236f55982fd53526660a0b41fbba22dc> rdfs:label "Mus musculus";
  a <http://purl.obolibrary.org/obo/NCBITaxon_10090> .

あらゆる属性について、biosample エントリが has-sample-attribute で namedIndividual を持っていて、その下にラベルでオリジナルのメタデータ記述、type指定でアノテーションをつけている。BioSampleは登録者がオリジナルのkeyを指定できるので、keyごとにpredicateを作るとかやらないでいいようになっている。さらに、これを拡張したい(キュレーションしたい)ときは、namedIndividual に type を追加することで実現できる (と思う)。

問題は、

  • value はラベルに残っとるけど key どこいったんや -> 要調査
  • named individual の uuid これ管理どうしてんの、アップデートとかしても維持されるの?
  • identifiers.org の ID 使ってくれよ
    • id.org/biosample はちゃんとあるのでRDFの中にもこれ入れてほしい
    • taxonomy も obo の class 指定だけでなくて id.org の URI にどげんかして繋げてほしい
  • EBI に submit された BioSample 以外はキュレーションしてない??

このあたりを EBI RDF チームに聞いて/お願いしてみます。

SRA/BioProject は、オリジナルのメタデータが XML で公開されているので、これをまず json-ld に変換する系をつくります (おおた)。モデルは BioSample に従って、オントロジーは既に理研小林さんが作られたものをなるべく流用します。できたRDFはRDFポータルに突っ込んで、ドッグラン大石さんに開発してもらっている SRA/BioSample/BioProject の検索エンジンに組み込んで、検索結果が json-ld で返ってくるようにする (予定)。

/mw/INSDC」より作成