PubChemRDF

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(語彙)
(RESTful API)
14行: 14行:
== RESTful API ==
== RESTful API ==
 +
PubChemRDF REST APIは、リクエストのAcceptヘッダーのMIME typeの指定に対応している。
 +
 +
RDFXML
 +
 +
  curl -v -L -H "Accept: text/rdf" -o CID2244.rdf http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244
 +
 +
Turtle
 +
 +
  curl -v -L -H "Accept: application/x-turtle" -o CID2244.rdf http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244
 +
 +
ntriples
 +
 +
  curl -v -L -H "Accept: text/plain" -o CID2244.rdf http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244
 +
 +
n3
 +
 +
  curl -v -L -H "Accept: text/rdf+n3" -o CID2244.rdf http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244
 +
 +
JSON
 +
 +
  curl -v -L -H "Accept: text/json" -o CID2244.rdf http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244
 +
 +
XHTML
 +
 +
  curl -v -L -H "Accept: application/xhtml+xml" -o CID2244.rdf http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244
 +
 +
フォーマットの指定は、Acceptヘッダー以外に、拡張子として指定できる。
 +
 +
* RDFXML http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244.rdf
 +
* XHTML http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244.html
 +
* Turtle http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244.turtle
 +
* JSON http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244.json
 +
* ntriples http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244.ntriples
 +
* n3 http://pubchem.ncbi.nlm.nih.gov/rest/rdf/compound/CID2244.n3
= 語彙とオントロジーにもとづくデータ統合 =
= 語彙とオントロジーにもとづくデータ統合 =

2014年2月5日 (水) 12:59時点における版

PubChemRDF の解説を行ないます。PubChemRDF は2014/01/31に公開されました。内容についてはリリースノースに詳しい解説があります。


目次

データの取得

PubChemRDFはFTPサイトREST APIで配布され、ユーザはRDFを取得してRDFストアに格納後SPARQLクエリを実行することができるようになりました。いままでは、XMLやSDFの配布物をFTPサイトもしくはウェブサービスからダウンロードしてから扱っていました。SDFを格納するデータベースはありますが、XMLについては汎用的すぎて、定番の処理は無かったと思います。RDF化によってPubChemの内容を手元で扱うのが手軽になったといえます。

FTP サイト

FTPサイト ftp://ftp.ncbi.nlm.nih.gov/pubchem/RDF/ のデータは週一回更新される。VoID ファイルが ftp://ftp.ncbi.nlm.nih.gov/pubchem/RDF/void.ttl にあり、配布されているデータの量やファイルのリストなどのPubChemRDFのメタデータについて知ることができる。

配布しているRDFは ttl.gz 拡張しのあるTurtle形式をgzip圧縮したものである。

データは分割され、一ファイルに含まれる開始ID xxx から終止ID yyy までのファイル名 xxx_yyy.ttl.gz となっている。

RESTful API

PubChemRDF REST APIは、リクエストのAcceptヘッダーのMIME typeの指定に対応している。

RDFXML

 curl -v -L -H "Accept: text/rdf" -o CID2244.rdf http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244

Turtle

 curl -v -L -H "Accept: application/x-turtle" -o CID2244.rdf http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244

ntriples

 curl -v -L -H "Accept: text/plain" -o CID2244.rdf http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244

n3

 curl -v -L -H "Accept: text/rdf+n3" -o CID2244.rdf http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244

JSON

 curl -v -L -H "Accept: text/json" -o CID2244.rdf http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244

XHTML

 curl -v -L -H "Accept: application/xhtml+xml" -o CID2244.rdf http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244

フォーマットの指定は、Acceptヘッダー以外に、拡張子として指定できる。

語彙とオントロジーにもとづくデータ統合

URI の構造

PubChemRDF サブドメイン

個人用ツール