TPP-DB
提供:TogoWiki
統合化推進プログラム (TPP) の各グループが持つデータベースを俯瞰し、RDF による統合データベース化にあたって共通化できる部分を検討する。
目次 |
各 TPP DB の共通 RDF モデル/オントロジー
TPP 各グループのデータ分野とRDF化対象の表
- https://docs.google.com/spreadsheets/d/1L0q18arcFq7EEO58lk3gOTCgCfKqrlmvINHgIrXTlWM/edit?usp=sharing
7ページ目の図を参考程度に
各プロジェクトのスキーマに関しては、下記にそれぞれ図をアップする。
TODO
- 各分野ごとに共通に使用する RDF モデルとオントロジーを整理する
- 分野間をまたぐ property (predicate) も揃えたい。共通のSPARQLが使え、スタンザを共用/プロジェクト横断スタンザができたりする?
- できるだけ各分野間で(rdfs:seeAlso などで)リンクしあいましょう (URI はできれば Identifiers.org のもので)リンクトデータの原則
- 具体的なプロジェクト間連携の例・・・
Biological entity
生物サンプルをtaxionomy ontologyとリンクさせて記述する
- SPARQLthon24#biological entity taxonを2つリンクする場合
- SPARQLthon22#biological entity
- SPARQLthon21#Taxonomy Ontology について
化合物
文献
数値/定量値
単位付き数値。15g、10cm等の記述方法
- #^^を使ってリテラルに属性を書く 方法に関して追記(本ページ下)。
- SPARQLthon24#数値/定量値 桝屋Gも黒川Gと同じ方法で行なう。
- TPP-masuya#数値/定量値
ゲノム関連
- ゲノム、ゲノムの中の位置情報、オルソログ、遺伝子・遺伝マーカー・QTL、アレル,バリアント、SNP、Genotype等
- TPP-Ontology#INSDC RDFスキーマ
- Ortholog Ontology (OrthO)
ラベル、別名
skos:preflabel, rdfs:label, skos:altlabelを使用する。 rdfs:labelと、skos:pref, altlabelとは、ダブらせている人が多い模様。reasoningを通す人はまだ少ないので。
画像
候補:foafを使う案
- 画像からデータ(写っているものなど) foaf:depicts (主語owl:Thing 述語foaf:Image)
- データから画像(データに関する画像) foaf:depiction (主語owl:Thing 述語foaf:Image)
foafそのものが良いかどうかも要検討
国名
研究施設
その他To do
- 遺伝子の共通IDは可能か
SPARQLthon 25 (2014/10/27)
- ゲノムの図が追加されました(片山さん感謝)
- 別名の件と、画像の件を追加
- (11/4追記)川島さんから情報
ここの方法2:^^を使ってリテラルに属性を書く に関して、DBPedia では、上記でいうところの方法2を利用しており、単位系を、datatype としてまとめています。http://mappings.dbpedia.org/index.php/DBpedia_Datatypes 例えば、
日本のDBpedia の記事(RDF版)では、USドルだと
dbpedia:Japan dbpprop:gdpNominalPerCapita "39321.0"^^<http://dbpedia.org/datatype/usDollar> .
死海のDBpedia の記事 (RDF版)では 面積(平方Km)だと、
dbpedia:Dead_Sea ns131:areaOfCatchment "41650.0"^^<http://dbpedia.org/datatype/squareKilometre> .
のように記述されています。
DBpedia datatype で、各種単位系が十分網羅されていれば、これを使うのも手かなと思いました。
SPARQLthon 24 (2014/9/25)
- Biological entityについて、前回の合意(議論?)に沿ってまとめた。SPARQLthon24#biological entity taxonプロパティは共通化できるかも。
- 数値/定量値について、桝屋Gも黒川Gと同様の記述とする
SPARQLthon 23 (2014/8/18)
- RDF化対象の表のうち、"実験結果、データ" に分類されている項目については、スキーマ作成を先行させるのではなく、TPPグループ関係者で、まずRDFデータを作った後に、お互いにレビューすることで進めていく。
- 現状、気をつけたいことは、主要な語彙(RDF, RDFS, OWL, SKOS, DC, DCterm, FOAF等)にある語彙が利用できる場合は利用すること。
- データのIDを記述する場合は、dc:identifiers を利用する。
- 各プロジェクトで使うオントロジーは、RDF化対象の表を参照。
- 前回おおまかに合意している、 biological entity, 化合物、ゲノムに関しては、生物種/分野横断的に使えるので、共通して使っていく。
- "統合化"について、見せる成果としては、具体的にデータ連携するプロジェクト間を繋ぐスタンザを作成する、をとりあえずの目標とする。
- 各プロジェクトが各分野で世界とつながることが重要。TPP内統合が小さくまとまらないように。
- SPARQLthon23#文献 櫛田さんより、個々の文献の識別にどのIDが使えそうか検討の報告
SPARQLthon 22 (2014/7/15)
- SPARQLthon22#biological entity biological entity、生物種の記述に関する同意事項の案
- SPARQLthon22#化合物RDF 化合物に関する同意事項の案
- ゲノムに関しては、片山さんが進めているRDFのフォーマットをなるべく使う。
- 文献に関しては、櫛田さんの方で方向性をまとめていただく。(参照するpredicate: reference、object: PMID, DOI, J-Global ID, NII論文ID(NAID), JAIRO ID)
- 各プロジェクトのスキームは、 オントロジー図のページになるべく載せていきましょう。
- 参照:スキーマの描き方について:https://gist.github.com/inutano/52a69a77ecf2a9d92760
SPARQLthon 22 (2014/6/18)
- オントロジー図を作成