BH14.14/DBCatalogue

提供:TogoWiki

移動: 案内, 検索

データベースのメタデータ DBCatalogue標準化

  • ライフ系データベースのメタデータを作成する(小林、藤澤、櫛田)

RDF化されていないデータベースも含むが、カタログはRDFで書いて流通させる。 まず理研が書きたいカタログ語彙を提案し、それをたたき台にして議論を進める。

Data Catalog Vocabulary (DCAT) http://www.w3.org/TR/vocab-dcat/ を基本にして語彙を決める。


DBCatalogue 語彙
項目名 プロパティ 目的語クラス
データベース void:Dataset metadb:hatodas
名称 dct:ditle rdf:langString "Heavy-atom Database System"@en
別称 dct:alternative rdf:langString "HATODAS"@en
運用組織 dc:publisher org:Organization http://metadb.riken.jp/db/resource/organisation/riken
作成者 dc:creator foaf:Person
作成者所属 metadb:affiliation org:Organization http://metadb.riken.jp/db/resource/organisation/riken/spring8
説明 dct:description rdf:langString "タンパク質のX線結晶解析に用いられる..."@ja
言語 dct:language http://www.lexvo.org/id/iso639-3 http://www.lexvo.org/id/iso639-3/eng
公開日 dct:issued xsd:datetime 2009/1/1
ライセンス dct:license dct:LicenseDocument metadb:license/creativecommons/CC-BY
ホームページ foaf:homenage xsd:anyURI http://hatodas.harima.riken.jp/
キーワード dcat:keyword rdf:langString "重原子化"@ja, "タンパク質"@ja,"X線結晶解析"@ja
バージョン pav:version xsd:string "1.0"
問い合わせ先 foaf:mailbox xsd:anyURI hoge@spring-8.or.jp
生物種 dcat:organism http://identifiers.org/taxonomy
対象 foaf:primaryTopic metadb_catalog:BioTarget metadb_catalog:BioTarget/Protein, metadb_catalog:BioTarget/Drug_Chemical
データ種 dcat:theme metadb_catalog:BioDataType metadb_catalog:BioDataType/Structure
関連論文 cito:citesAsAuthority http://rdf.ncbi.nlm.nih.gov/pubmed http://rdf.ncbi.nlm.nih.gov/pubmed/16131765
SPARQLエンドポイント void:sparqlEndpoint rdf:Resource http://mdatadb.riken.jp/sparql
グラフ sd:graph sd:Graph metadb_graph:hatodas

表の見方:データベースはvoid:Detasetのインスタンスに対応する。 それ以後の各行はデータベースを主語とするトリプルに対応している。

上記赤色の部分は理研独自で使用している語彙で、今後標準化が求められる項目


データベースの「対象」を記述する語彙は、http://integbio.jp/dbcatalog/about に掲載されているが、RDFでの利用についての言及がなかったので、各項目に理研独自のURIを付して使う。(今後国内外での標準化が必要)

対象 (クラス metadb_catalog:BioTarget)
URI 日本語ラベル
metadb_catalog:BioTarget/Genome "ゲノム"@ja
metadb_catalog:BioTarget/Gene "遺伝子"@ja
metadb_catalog:BioTarget/cDNA "cDNA"@ja
metadb_catalog:BioTarget/TagSequence "タグ配列 (核酸)"@ja
metadb_catalog:BioTarget/Polymorphism "多型"@ja
metadb_catalog:BioTarget/OtherDNA "その他のDNA"@ja
metadb_catalog:BioTarget/RNA "RNA"@ja
metadb_catalog:BioTarget/Protein "蛋白質"@ja
metadb_catalog:BioTarget/Enzyme "酵素"@ja
metadb_catalog:BioTarget/OtherBiomolecule "その他の生体分子"@ja
metadb_catalog:BioTarget/Drug_Chemical "薬剤/化学物質"@ja
metadb_catalog:BioTarget/Cell "細胞"@ja
metadb_catalog:BioTarget/Organism "個体/種"@ja
metadb_catalog:BioTarget/Health_Disease "健康/疾患"@ja
metadb_catalog:BioTarget/Others "その他"@ja


データベースの「データ種」を記述する語彙は、http://integbio.jp/dbcatalog/about に掲載されているが、RDFでの利用についての言及がなかったので、各項目に理研独自のURIを付して使う。(今後国内外での標準化が必要)

データ種 (クラス metadb_catalog:BioDataType)
URI 日本語ラベル
metadb_catalog:BioDataType/Sequence "配列"@ja
metadb_catalog:BioDataType/Structure "構造"@ja
metadb_catalog:BioDataType/GeneExpression "遺伝子発現"@ja
metadb_catalog:BioDataType/Interaction_Pathway "相互作用/パスウェイ"@ja
metadb_catalog:BioDataType/Phylogeny_Classification "系統発生/分類"@ja
metadb_catalog:BioDataType/Image_Movie "画像/動画"@ja
metadb_catalog:BioDataType/Ontology_Terminology_Nomenclature "オントロジー/用語/学名/命名法"@ja
metadb_catalog:BioDataType/JournalArticle_Report_Bibliography "論文/報告書/書誌"@ja
metadb_catalog:BioDataType/Bioresource "バイオリソース"@ja
metadb_catalog:BioDataType/Others "その他"@ja

DBCatalogue データのエンドポイント

以前運用していたものが稼働していないということでテンポラルにホストすることにしました(片山 2015/2/5)。

% 71tmp.sh loaddir http://integbio.jp/dbcatalog/en /data/store/rdf/dbcatalog/en '*.n3'
% 71tmp.sh loaddir http://integbio.jp/dbcatalog/ja /data/store/rdf/dbcatalog/ja '*.n3'
select ?s ?p1 ?o1 ?p2 ?o2
where {
  graph <http://integbio.jp/dbcatalog/en> {
    VALUES ?s { <http://integbio.jp/dbcatalog/resource/nbdc00003#en> }
    ?s ?p1 ?o1 .
    OPTIONAL {?o1 ?p2 ?o2 .}
  }
}
limit 100
/mw/BH14.14/DBCatalogue」より作成