BH13.13/crosssearch
提供:TogoWiki
目次 |
概要
4省の生命科学系データベースの統合の一環として,ライフサイエンス系のデータベースを中心とした横断検索サービスの提供を行っています。
- 生命科学データベース統合のためのポータルサイト -- http://integbio.jp/ja/
データベース統合における横断検索の役割は,それぞれのデータベースの中身の一部を検索結果に表示することで,ユーザーとデータベースのマッチングを促進する入り口としての役割を担っていると考えています。サービス向上のために実施したアクセス解析において,ライフサイエンス系のデータベースにおいても文書系のデータベースが多くアクセスされ,人気が高いことが分かりました(例:特許,ゲノムネット医薬品データベース,医学薬学予稿集全文データベース)。
しかしながら,ライフサイエンス系のデータベースでは,文字情報が少ないデータベースも少なくありません。そうしたデータベースにユーザーにアクセスをして頂くためには,ライフサイエンス系のデータベースに共通しているキーワードや各データベース,あるいはそのデータベースの分野において共通に重要であると思われるキーワードをピックアップすることが重要ではないかと考えています。Sagaceでは,データベース管理者の方にご協力いただき,メタデータを各データベースが公開されているウェブページにマークアップして頂くことにより,ユーザーとデータベースを結びつける入り口としての役割を強化したい,と考えています。
対象となるサービス
- Sagace - http://sagace.nibio.go.jp
- 生命科学データベース横断検索(対応予定)- http://biosciencedbc.jp/dbsearch/
- MEDALS横断検索 (対応予定)- http://medals.jp/xsearch/
目的とゴール
目的
- ユーザーとデータベースのマッチングの推進。
- ユーザー : 検索結果を見てそのエントリーが自分が探しているものか否かを瞬時に判断できる。
- データベース管理者 : より多くのユーザーにデータベースを使ってもらえる。新規ユーザー開拓に繋がる。
- 横断検索サービス提供者 : 単一のクローラーで重要なデータをピックアップできる。
ゴール
- データベースのデータのマークアップを普及・推進し,よりよい検索結果を提供することで,ライフサイエンス系のデータベース(Sagaceの場合は創薬・疾患に関わるデータベース)とユーザーを効率よく結びつけること。
- W3CのSchema.org extensionの1つとして採択されること。
BH13.13でのゴール
- より多くのデータベースにマークアップをして頂く。
- RDFa Liteを使って,Schema.org以外のRDF語彙をどう検索結果に活かし,どのような基準を設けるか方向付けをする。
これまでの取り組み
BioHackathonでの活動報告とマークアップ方法について
- BH12でのグループのページ -- https://github.com/dbcls/bh12/wiki/Schema.org-extension
- BH12.12でのグループのページ -- /mw/index.php/BH12.12/schema.org
- 生命科学データベースのためのSagaceマークアップ・スキーマ -- http://sagace.nibio.go.jp/schema/schema.html
- 現在Sagaceでサポートしているプロパティとマークアップ方法の解説-- http://sagace.nibio.go.jp/press/metadata/markup/
Schema.org Extension
- Sagaceでは,これまで,Microdataのマークアップ方法の簡潔さ,使用を推奨されているボキャブラリの定義の明確さ,RDFaの複雑性とmicroformatsの定義の曖昧さからmicrodataでのマークアップを推奨してきました。また,microdataでのマークアップを推奨するため,Biological Database とBiological Database Entryのボキャブラリをschema.orgへの追加を目標として活動を続けてきました。
Schema.orgのボキャブラリ(プロパティ)案
- 最新のボキャブラリ(プロパティ)案 -- http://www.w3.org/wiki/WebSchemas/BioDatabases
- W3C WikiでのBiologicalDatabaseEntryのページです。
ボキャブラリを考えるための参考になるページ
- W3C Wikiでのすべてのproposalのリストページ -- http://www.w3.org/wiki/WebSchemas/SchemaDotOrgProposals
- Schema.org公式ページ -- http://schema.org
- 既存のいろんなextensionが参考になる
- Schema.orgスタイルガイド(案) -- http://www.w3.org/wiki/WebSchemas/StyleGuide
Microdataでマークアップ済みのデータベース (Many thanks !!)
- DoBISCUIT(Database Of BIoSynthesis clusters CUrated and InTegrated) - http://www.bio.nite.go.jp/pks/
- JCRB細胞バンク - http://cellbank.nibio.go.jp/
- Functional Glycomics with KO mice database - http://jcggdb.jp/doc/Project.action?projectId=1&langType=1
- Glyco-Disease Genes Database - http://jcggdb.jp/doc/ProjectTop.action?langType=2&projectId=2
- JCGGDB Report - http://jcggdb.jp/doc/ProjectTop.action?langType=2&projectId=3
- MEDALS(データベース便覧) - http://medals.jp/list/list_alldb
- Integbio データベースカタログ - http://integbio.jp/dbcatalog/?lang=ja
- LSDBアーカイブ - http://dbarchive.biosciencedbc.jp/
- 新たにmicrodataを入れてくださる場合,上記のデータベースのマークアップ例もご参照頂ければと思います。
RDFa Lite採用の経緯
- 前述のとおり,Sagaceでは,htmlをマークアップする方法としてmicrodataを推奨してきました。しかしながら,現状として下記の問題点がありました。
- Microdataだと(原則)Schema.orgのボキャブラリしか使えない。
- MicrodataはW3C Working Groupであり,Recommendationではない。
- 調査の結果,RDFa Liteがこれらの問題を解決する可能性があることが分かってきました。
RDFa Liteとは?
- Schema.orgやMicrodataの普及にともない,W3CがRDFaをかなり単純化させて制定した形式
- W3C recommendation
- schema.orgのボキャブラリ体系を基本としながら,外部のRDFのボキャブラリも柔軟に適用可能。
- マークアップが簡単
参照URL
- W3C RDFa Lite - http://www.w3.org/TR/rdfa-lite/
- RDFa Lite Extractor - http://sagace.nibio.go.jp/translation/rdfalite.php
- Sagaceで使用する予定のRDFa Lite用のExtractorです。htmlを入力,もしくは,RDFa Liteでマークアップしたウェブサイトのurlを入れるとメタデータを抽出して表示。
- RDFa Play - http://rdfa.info/play/
- htmlを入力すると,RDFa Liteをパースしてグラフとして関係性を表記することが出来る。
- RDFa 1.1 Lite を使用して HTML ページをリッチな情報が含まれたページにする - http://www.ibm.com/developerworks/jp/web/library/wa-rdfalite/
- RDFa Liteについて解説された良記事
MicrodataまたはRDFa Liteの埋め込み例と検索結果への反映について
- 現在反映をされているプロパティは以下のとおりです。
- image (画像)
- isEntryOf (どのデータベース由来か)
- entryID (エントリーID)
- taxon(生物種)
- disease (疾患名)
- seeAlso (他の参考となるデータベースのエントリ)
- dateModified (最終更新日)
- reference (文献)
- 詳しいマークアップ方法と反映のイメージはこちらをご覧ください。
- Sagace Press マークアップ方法- http://sagace.nibio.go.jp/press/metadata/markup/
Schema.org以外のボキャブラリを使用してマークアップする場合
ex1) PDBj
DBエントリー例
1GOF NOVEL THIOETHER BOND REVEALED BY A 1.7 ANGSTROMS CRYSTAL STRUCTURE OF GALACTOSE OXIDASE 1GOFの概要 分子名称 GALACTOSE OXIDASE (E.C.1.1.3.9) (PH 4.5) 機能のキーワード OXIDOREDUCTASE(OXYGEN(A)) 由来する生物種 Hypomyces rosellus ポリマー鎖の合計数 1 分子量の合計 68785.89 著者 Ito, N.,Phillips, S.E.V.,Knowles, P.F. (登録日: 1993-09-30, 公開日: 1994-01-31, 最終更新日: 2011-07-13) 引用文献 Ito, N., Phillips, S.E., Stevens, C., Ogel, Z.B., McPherson, M.J., Keen, J.N., Yadav, K.D., Knowles, P.F. Novel thioether bond revealed by a 1.7 A crystal structure of galactose oxidase. Nature, 350:87-90, 1991 PubMed: 2002850 DOI: 10.1038/350087a0 MImport into Mendeley 実験手法 X-RAY DIFFRACTION (1.7 Å) …… Copyright © 2013-2014 日本蛋白質構造データバンク
現在の検索結果
マークアップ例
<div prefix="PDBo : http://rdf.wwpdb.org/schema/pdbx-v40.owl#"> <span property="PDBo:exptl.method">X-RAY DIFFRACTION</span> </div>
検索結果への反映(イメージ)
マークアップ例(フル)
<body vocab=“http://schema.org/” typeof=“BiologicalDatabaseEntry”> <span property="entryID">1GOF</span> <img property="image" src="http://pdbj.org/pdb_images/1gof.jpg" /> <span property="taxon" vocab="http://schema.org/" typeof="BiologicalDatabaseEntry"> Organism: <span property="name">Hypomyces rosellus</span> (human) Taxonomy ID: <a property="url" href="http://www.uniprot.org/taxonomy/5132"><span property="entryID">5132</span></a> </span> <meta property='reference' content='pmid:2002850' />PubMed:2002850 <span property="dateModified">2014-1-24</span> <div prefix="PDBo: http://rdf.wwpdb.org/schema/pdbx-v40.owl#"> <span property="PDBo:exptl.method">X-RAY DIFFRACTION</span> </div> <span property="seeAlso" vocab="http://schema.org/" typeof="BiologicalDatabaseEntry"> <span property="isEntryOf" vocab="http://schema.org/" typeof="BiologicalDatabase"> <span property="name">UniProt</span> </span>: <a property="url" href="http://www.uniprot.org/uniprot/Q01745"><span property="entryID">Q01745</span></a> </span> <span property="seeAlso" vocab="http://schema.org/" typeof="BiologicalDatabaseEntry"> <span property="isEntryOf" vocab="http://schema.org/" typeof="BiologicalDatabase"> <span property="name">KEGG</span> </span>: <a property="url" href="http://www.genome.jp/dbget-bin/www_bget?ec:1.1.3.9"><span property="entryID">EC 1.1.3.9</span></a> </span> <span property="seeAlso" vocab="http://schema.org/" typeof="BiologicalDatabaseEntry"> <span property="isEntryOf" vocab="http://schema.org/" typeof="BiologicalDatabase"> <span property="name">Pfam</span> </span>: <a property="url" href="http://pfam.sanger.ac.uk/family/PF00754"><span property="entryID">PF00754</span></a> </span> Copyright © 2013-2014 <span property="isEntryOf" typeof="BiologicalDatabase"> <a property="url" href="http://pdbj.org/"> <span property="name">日本蛋白質構造データバンク</span> </span>
検索結果への反映
BH13.13における進捗
紹介資料
- 生命科学分野の横断検索サービスとメタデータの活用 - http://www.slideshare.net/maoringo/bh1313-sagace-1
導入してくださったDB
- Carbohydrate Interaction Database (Carint) - http://ws.glyconavi.org/carint/doilist.php
自由記述欄
- 質問,コメント募集します。お気軽にお書きいただければと思います
- Q. MicrodataとRDFa Liteの使い分けは何か(村上さん)
- A. 現在RDFを使用したり,独自のボキャブラリを定義している場合は,RDFa Lite推奨です。ただ,Sagaceでどこまでサポートをするのか,何をピックアップするのかについては,相談の上,決めてSagace上のページに掲載したいと考えています。その際,同一のものを違うボキャブラリで表現するようにはしないようにしたいと考えています。 特にRDFを使っていない場合や,schema.org extensionの活動をプッシュする場合には,microdataを推奨します。(真和吏)
- Q. マークアップするタグは何でも良いのか。(山田さん)
- A. 何でも構いません。microdataの場合も,RDFa Liteの場合もそれが含まれているタグが覆われている部分に,ボキャブラリを書いて頂き,その範囲内にitemprop,または,propertyでpredicateに該当するものをお書き頂き,itempropまたは,propertyが書かれているタグで含まれている部分(metaタグの場合はcontentの中身)にObjectに該当する中身をお書き頂ければと思います。
- Q. imageタグは,メタデータというより属性ではないか。(金さん)
- A. 確かにタグ自体は属性であるのですが,実際にマークアップする中身としての意味は,特定のボキャブラリにおける画像であるという意味付けなので,マークアップする意味というのはあると考えています。
- Q. 機械学習を使って自動的にマークアップするツールが出来れば,より多くの方に使って頂けるのではないか(金さん,五十嵐さん)
- A. 確かに有用なツールだと思います。そして,技術的にも頑張れば可能かもしれません。ただ,それだと,クローラーを個別に書くという操作に近くなってしまい,エフォートが大きくなってしまうと思うので,現在のところ作る予定はありません…(真和吏)
- Q. マークアップをしてみたが,Extractorが取ってこれていない…(山田さん)
- A. データ量が多いと,ウェブ上のツールでは対応しきれないことがあるので,その場合は,github[1]からプログラムをダウンロードして,実行して頂ければと思います。
- Q. 文献のマークアップについて,web上には番号しか書いておらず,IDが書いていない場合はどうすれば良いのか(山田さん)。
- A. その場合には,idの種類が限定できないので, metaタグをご使用ください。
Microdataの例
<span itemscope itemtype="http://schema.org/BiologicalDatabaseEntry"> <meta itemprop='reference' content='pmid:23110816' /> </span>
RDFa Liteの例
<span vocab="http://schema.org/" typeof="BiologicalDatabaseEntry"> <meta property='reference' content='pmid:23110816' /> </span>
- Q. Googleの検索結果との比較において,1つの検索語に着目してピックアップした検索結果例だけでは,信頼性が低いのではないか。(小寺さん)
- A. 検索結果を評価する方法としてF値(Precision,Recallから検索結果の評価を行う方法)がある。現状では,どう評価するかが難しいので,現状,評価を行うことは優先順位として高く考えていないです…。(真和吏)
- Q. htmlに直接マークアップするという操作は,普段それらの操作を行っていない人にとっては,とても難しいのではないか。例えば,使用しているボキャブラリやプロパティが何であるかも覚えてないとマークアップしにくい。(小野さん,飯田さん)
- A. 確かにそうですね。Googleでは,構造化データ マークアップ支援ツール - https://support.google.com/webmasters/answer/3069489?hl=ja というもので,簡単にマークアップするツールがあります。Sagaceにおいても,もう少しマークアップを支援するツールについて出来ないかどうか検討してみます。(真和吏)
- Q. wordpressにはプラグインがあるのでは?(小野さん)
- A. microdataについては,直接Biological Database(Entry)をマークアップするものは無いのですが,一般的なボキャブラリをマークアップするものや,参考となるサイト - http://nendeb.jp/?p=691 はあります。ぐぐる - https://www.google.com/#q=wordpress+microdata (真和吏)
メンバー
- 伊藤真和吏(maori@nibio.go.jp)
- 森田瑞樹(mizuki@nibio.go.jp)