BH13.13/dbcatalog
提供:TogoWiki
目次 |
参加者、対象サービス
- 坂東、櫛田、村上、山口、呉、片山、西澤
- Integbioデータベースカタログ (坂東)
- MEDALSデータベース便覧 (村上)
- TogoDB (片山・西澤)
概要
データベースの概要を掴むための基本的な情報(URL、説明、生物種など)を記述したメタデータ(カタログデータ)のRDF化を行う。各国、各組織のデータベースカタログ提供者が共通の仕様をもとにカタログデータのRDF化を行うことによって、提供者間での円滑なデータ交換を実現することを具体的な目標として設計する。既存のスキーマ (例:HCLS dataset description, JST知識インフラ)を可能な限り参考にして汎用的に用いられている語彙を利用する。
作業目標
- BH13にてHCLSによるDataset descriptionのドラフトをベースとしてBioDBCore, Identifiers.org, IntegbioデータベースカタログのRDF化を試みた。
- 残りの課題を解決してRDFデータのサンプルを作成する。
- 生物種の記述
- 多言語化対応(日英のメタデータ)
- 作成したサンプルをもとにカタログの全データのRDF化
- カタログの全データをtriple storeにいれる。
- MEDALS と Integbio をあわせて検索できるようにして、項目自体や値の比較ができるようにする。(2つは同じデータベース(例えばARCHIAC)を含んでいる。基本的には同じ項目の値は同じだが、意図して異なる場合もある。)
- 目的:
- 意図しないエラーや、(integbio/medalsの)どちらかが未更新であることが判明する。
- 本家(ARCHIACなど)の更新に伴い、どちらかがカタログ内容を更新した場合に違いが、機械的チェックでわかるようにして、正確で迅速な更新を目指す。
- 以下に注意して、RDFデータを作成する。
- RDFのオントロジーをなるべく共通にする。もし項目がなければ、出来るだけつくってデータを入れるようにする。
- 目的:
進捗
- RDFデータ設計 残りの課題つぶし
- 生物種 (Taxonomy ID)
dcat:organism <http://identifiers.org/taxonomy/9606>
→NCBI Taxonomyデータのowlファイル(DBCLSで独自に作成)とつなげることで、階層関係を利用して検索する。 参考: /mw/index.php/BH12.12/SPARQLthon11/Taxonomy
- 多言語化対応(日英のメタデータ)
- 案1. Propertyは同じで、リテラルで記述する項目では、言語タグ@langで日英の情報を併記する。→ボツ. レコード公開日/最終更新日など日英レコードで異なる記述の項目が存在する。
- 案2.日英のレコードを独立のリソースとして扱う。BH13.13では英語レコードのみを対象にRDFデータを作成。
<サンプル1 (N3) 3dinsight> @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>. @prefix dct: <http://purl.org/dc/terms/>. @prefix dcat: <http://www.w3.org/ns/dcat#>. @prefix foaf: <http://xmlns.com/foaf/0.1/>. @prefix dbpedia: <http://dbpedia.org/ontology/>. @prefix jst: <http://jglobal.jst.go.jp/>. @prefix nbdc: <http://biosciencedbc.jp/>. @prefix medals: <http://medals.jp/>. @prefix cito: <http://purl.org/spar/cito/>. @prefix void: <http://rdfs.org/ns/void#>. @prefix xsd: <http://www.w3.org/2001/XMLSchema#>. □ <http://integbio.jp/dbcatalog/en/record/nbdc00002> rdf:type dct:Dataset; dct:title "3DinSight"@en; dct:description "in preparation"@en; dct:creator _:a1; foaf:page <http://gibk26.bio.kyutech.ac.jp/jouhou/3dinsight/3DinSight.html>; dcat:keyword "Protein"@en; dcat:keyword "Structure"@en; dct:license <http://integbio.jp/dbcatalog/record/license/unknown>; dct:language <http://lexvo.org/id/iso639-3/eng>; cito:citesAsAuthority <http://identifers.org/pubmed:9545451>; dct:available "Inactive"@en. □ _:a1 rdf:type <http://xmlns.com/foaf/0.1/Organization>; dct:title "Kyushu Institute of Technology"@en; jst:organization <http://ns.jst.go.jp/id/200905059326281589>; dbpedia:country <http://dbpedia.org/resource/Japan>. □ <http://integbio.jp/dbcatalog/en/record/nbdc00002> a void:DatasetDescription; dct:title "3DinSight database record"@en; dct:description "integbio database record for 3DinSight"@en; dct:identifier "NBDC00002"^^xsd:string; dct:creator _:b1; dct:created "2013-06-17T00:00:00Z"^^xsd:dateTime; dct:modified "2013-06-17T00:00:00Z"^^xsd:dateTime; foaf:primaryTopic <http://integbio.jp/dbcatalog/en/record/nbdc00002>. □ _:b1 rdf:type <http://xmlns.com/foaf/0.1/Organization>; rdfs:label "National Bioscience Database Center"@en; dct:label "National Bioscience Database Center"@en; dbpedia:country <http://dbpedia.org/resource/Japan>.
- 作成したサンプルをもとにカタログの全データのRDF化 Done
- カタログの全データをtriple storeにいれる。 Done
- integbioの仕様に沿ってMEDALS便覧のRDF化、triple storeにいれる。→数サンプル Done
- ユースケース:複数のカタログ (MEDALS, IntegbioDBカタログ)をつないでレコードを比較してみる。
例:Integbioデータベースカタログの「ARCHIAC」に対応するMEDALS便覧を探し、更新された英語の説明情報を確認する。
select distinct ?item ?medals_record ?integbio_record WHERE { {GRAPH <http://medals.jp/dbcatalog> {<http://medals.jp/0.1/77> ?item ?medals_record}}. {GRAPH <http://integbio.jp/dbcatalog> {<http://integbio.jp/dbcatalog/en/record/nbdc00007> ?item ?integbio_record}}. }
課題:
- カタログ (Integbioデータベースカタログ)のメタデータの記述方法を再検討する。
- (data providerではなく) データベースカタログ providerにとってのガイドラインとして適切か? 例:ライセンスなどのmustととなっているidentifierについて
TogoDB
- TogoDB のデータベースメタデータ登録フォームを改訂し、HCLS ガイドラインに沿った入力項目と指定 predicate による RDF の生成を行う
- HCLSガイドライン (dataset-descriptors)
サンプル(Turtle)
@prefix cito: <http://purl.org/spar/cito/> . @prefix dcat: <http://www.w3.org/ns/dcat#> . @prefix dct: <http://purl.org/dc/terms/> . @prefix foaf: <http://xmlns.com/foaf/0.1/> . @prefix pav: <http://purl.org/pav/> . @prefix void: <http://rdfs.org/ns/void#> . @prefix xsd: <http://www.w3.org/2001/XMLSchema#> . <http://togodb.org/db/bh1313> a dct:DataSet; dct:title "title of this database"; dct:accrualPeriodicity "every four weeks"^^dct:Frequency; dct:contributor "contributor of this database"; dct:created "2013-05-10T09:29:55+09:00"^^xsd:dateTime; dct:creator "creator of this database"; dct:description "description of this database"; dct:format "csv", "json", "rdf/xml", "turtle"; dct:identifier "bh1313"; dct:issued "2014-01-31T11:15:20+09:00"^^xsd:dateTime; dct:language <http://lexvo.org/id/iso639-3/eng>, <http://lexvo.org/id/iso639-3/jpn>, <http://lexvo.org/id/iso639-3/deu>; dct:licence <http://creativecommons.org/licenses/by-sa/4.0>; dct:publisher <http://example.com/publisher>; pav:createdWith <http://togodb.org/>; cito:citesAsAuthority <literature reference>; void:dataDump <http://togodb.org/release/bh1313.rdf>, <http://togodb.org/release/bh1313.ttl>; void:exampleResource <http://togodb.org/entry/bh1313/1>; void:inDataset <http://example.com/item_to_dataset_relation/>; void:sparqlEndpoint <http://togodb.org/sparql/bh1313>; void:vocabulary <http://togodb.org/a0101dt01/vocabulary>; dcat:distribution [ a dcat:Distribution; dcat:downloadURL <http://togodb.org/release/bh1313.csv>], [ a dcat:Distribution; dcat:downloadURL <http://togodb.org/release/bh1313.json>], [ a dcat:Distribution; dcat:downloadURL <http://togodb.org/release/bh1313.rdf>], [ a dcat:Distribution; dcat:downloadURL <http://togodb.org/release/bh1313.ttl>]; dcat:keyword "keyword1", "keyword2", "keyword3", "keyword4"; dcat:landingPage <http://togodb.org/apidoc>; foaf:page <http://togodb.org/db/bh1313> .
参考リンク
BH13のプログレス
- RDFization (minimum descriptions for the dataset)