BH13.13/dbcatalog

提供:TogoWiki

移動: 案内, 検索

目次

参加者、対象サービス

概要

データベースの概要を掴むための基本的な情報(URL、説明、生物種など)を記述したメタデータ(カタログデータ)のRDF化を行う。各国、各組織のデータベースカタログ提供者が共通の仕様をもとにカタログデータのRDF化を行うことによって、提供者間での円滑なデータ交換を実現することを具体的な目標として設計する。既存のスキーマ (例:HCLS dataset description, JST知識インフラ)を可能な限り参考にして汎用的に用いられている語彙を利用する。

作業目標

  • 残りの課題を解決してRDFデータのサンプルを作成する。
    • 生物種の記述
    • 多言語化対応(日英のメタデータ)
  • 作成したサンプルをもとにカタログの全データのRDF化
  • カタログの全データをtriple storeにいれる。
  • MEDALS と Integbio をあわせて検索できるようにして、項目自体や値の比較ができるようにする。(2つは同じデータベース(例えばARCHIAC)を含んでいる。基本的には同じ項目の値は同じだが、意図して異なる場合もある。)
    • 目的:
      • 意図しないエラーや、(integbio/medalsの)どちらかが未更新であることが判明する。
      • 本家(ARCHIACなど)の更新に伴い、どちらかがカタログ内容を更新した場合に違いが、機械的チェックでわかるようにして、正確で迅速な更新を目指す。
    • 以下に注意して、RDFデータを作成する。
      • RDFのオントロジーをなるべく共通にする。もし項目がなければ、出来るだけつくってデータを入れるようにする。

進捗

  • RDFデータ設計 残りの課題つぶし
  • 生物種 (Taxonomy ID)
dcat:organism <http://identifiers.org/taxonomy/9606>

→NCBI Taxonomyデータのowlファイル(DBCLSで独自に作成)とつなげることで、階層関係を利用して検索する。 参考: /mw/index.php/BH12.12/SPARQLthon11/Taxonomy

  • 多言語化対応(日英のメタデータ)
    • 案1. Propertyは同じで、リテラルで記述する項目では、言語タグ@langで日英の情報を併記する。→ボツ. レコード公開日/最終更新日など日英レコードで異なる記述の項目が存在する。
    • 案2.日英のレコードを独立のリソースとして扱う。BH13.13では英語レコードのみを対象にRDFデータを作成。
<サンプル1 (N3) 3dinsight>
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>.
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>.
@prefix dct: <http://purl.org/dc/terms/>.
@prefix dcat: <http://www.w3.org/ns/dcat#>.
@prefix foaf: <http://xmlns.com/foaf/0.1/>.
@prefix dbpedia: <http://dbpedia.org/ontology/>.
@prefix jst: <http://jglobal.jst.go.jp/>.
@prefix nbdc:  <http://biosciencedbc.jp/>.
@prefix medals: <http://medals.jp/>.
@prefix cito: <http://purl.org/spar/cito/>.
@prefix void: <http://rdfs.org/ns/void#>.
@prefix xsd: <http://www.w3.org/2001/XMLSchema#>.
□
<http://integbio.jp/dbcatalog/en/record/nbdc00002>
rdf:type dct:Dataset;
dct:title "3DinSight"@en;
dct:description "in preparation"@en;
dct:creator _:a1;
foaf:page <http://gibk26.bio.kyutech.ac.jp/jouhou/3dinsight/3DinSight.html>;
dcat:keyword "Protein"@en;
dcat:keyword "Structure"@en;
dct:license <http://integbio.jp/dbcatalog/record/license/unknown>;
dct:language <http://lexvo.org/id/iso639-3/eng>;
cito:citesAsAuthority <http://identifers.org/pubmed:9545451>;
dct:available "Inactive"@en.
□
_:a1
rdf:type <http://xmlns.com/foaf/0.1/Organization>;
dct:title "Kyushu Institute of Technology"@en;
jst:organization <http://ns.jst.go.jp/id/200905059326281589>;
dbpedia:country <http://dbpedia.org/resource/Japan>.
□
<http://integbio.jp/dbcatalog/en/record/nbdc00002>
a void:DatasetDescription;
dct:title "3DinSight database record"@en;
dct:description "integbio database record for 3DinSight"@en;
dct:identifier "NBDC00002"^^xsd:string;
dct:creator _:b1;
dct:created "2013-06-17T00:00:00Z"^^xsd:dateTime;
dct:modified "2013-06-17T00:00:00Z"^^xsd:dateTime;
foaf:primaryTopic <http://integbio.jp/dbcatalog/en/record/nbdc00002>.
□
_:b1
rdf:type <http://xmlns.com/foaf/0.1/Organization>;
rdfs:label "National Bioscience Database Center"@en;
dct:label "National Bioscience Database Center"@en;
dbpedia:country <http://dbpedia.org/resource/Japan>.
  • 作成したサンプルをもとにカタログの全データのRDF化 Done
  • カタログの全データをtriple storeにいれる。 Done
  • integbioの仕様に沿ってMEDALS便覧のRDF化、triple storeにいれる。→数サンプル Done
  • ユースケース:複数のカタログ (MEDALS, IntegbioDBカタログ)をつないでレコードを比較してみる。

例:Integbioデータベースカタログの「ARCHIAC」に対応するMEDALS便覧を探し、更新された英語の説明情報を確認する。

select distinct ?item ?medals_record ?integbio_record
 WHERE
{
{GRAPH <http://medals.jp/dbcatalog> {<http://medals.jp/0.1/77> ?item ?medals_record}}.
{GRAPH <http://integbio.jp/dbcatalog>
{<http://integbio.jp/dbcatalog/en/record/nbdc00007> ?item ?integbio_record}}.
}

課題:

  • カタログ (Integbioデータベースカタログ)のメタデータの記述方法を再検討する。
  • (data providerではなく) データベースカタログ providerにとってのガイドラインとして適切か? 例:ライセンスなどのmustととなっているidentifierについて

TogoDB

  • TogoDB のデータベースメタデータ登録フォームを改訂し、HCLS ガイドラインに沿った入力項目と指定 predicate による RDF の生成を行う

サンプル(Turtle)

@prefix cito: <http://purl.org/spar/cito/> .
@prefix dcat: <http://www.w3.org/ns/dcat#> .
@prefix dct: <http://purl.org/dc/terms/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix pav: <http://purl.org/pav/> .
@prefix void: <http://rdfs.org/ns/void#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .

<http://togodb.org/db/bh1313> a dct:DataSet;
   dct:title "title of this database";
   dct:accrualPeriodicity "every four weeks"^^dct:Frequency;
   dct:contributor "contributor of this database";
   dct:created "2013-05-10T09:29:55+09:00"^^xsd:dateTime;
   dct:creator "creator of this database";
   dct:description "description of this database";
   dct:format "csv",
     "json",
     "rdf/xml",
     "turtle";
   dct:identifier "bh1313";
   dct:issued "2014-01-31T11:15:20+09:00"^^xsd:dateTime;
   dct:language <http://lexvo.org/id/iso639-3/eng>,
     <http://lexvo.org/id/iso639-3/jpn>,
     <http://lexvo.org/id/iso639-3/deu>;
   dct:licence <http://creativecommons.org/licenses/by-sa/4.0>;
   dct:publisher <http://example.com/publisher>;
   pav:createdWith <http://togodb.org/>;
   cito:citesAsAuthority <literature reference>;
   void:dataDump <http://togodb.org/release/bh1313.rdf>,
     <http://togodb.org/release/bh1313.ttl>;
   void:exampleResource <http://togodb.org/entry/bh1313/1>;
   void:inDataset <http://example.com/item_to_dataset_relation/>;
   void:sparqlEndpoint <http://togodb.org/sparql/bh1313>;
   void:vocabulary <http://togodb.org/vocabulary/bh1313>;
   dcat:distribution [ a dcat:Distribution;
     dcat:downloadURL <http://togodb.org/release/bh1313.csv>],
     [ a dcat:Distribution;
     dcat:downloadURL <http://togodb.org/release/bh1313.json>],
     [ a dcat:Distribution;
     dcat:downloadURL <http://togodb.org/release/bh1313.rdf>],
     [ a dcat:Distribution;
     dcat:downloadURL <http://togodb.org/release/bh1313.ttl>];
   dcat:keyword "keyword1",
     "keyword2",
     "keyword3",
     "keyword4";
   dcat:landingPage <http://togodb.org/apidoc>;
   foaf:page <http://togodb.org/db/bh1313> .

参考リンク

BH13のプログレス

  • RDFization (minimum descriptions for the dataset)

https://github.com/dbcls/bh13/wiki/RDFization_dataset

/mw/BH13.13/dbcatalog」より作成