BH13.13/crosssearch

提供:TogoWiki

2014年1月30日 (木) 06:39時点におけるMaori (トーク | 投稿記録)による版
移動: 案内, 検索

目次

概要

4省の生命科学系データベースの統合の一環として,ライフサイエンス系のデータベースを中心とした横断検索サービスの提供を行っています。

データベース統合における横断検索の役割は,それぞれのデータベースの中身の一部を検索結果に表示することで,ユーザーとデータベースのマッチングを促進する入り口としての役割を担っていると考えています。サービス向上のために実施したアクセス解析において,ライフサイエンス系のデータベースにおいても文書系のデータベースが多くアクセスされ,人気が高いことが分かりました(例:特許,ゲノムネット医薬品データベース,医学薬学予稿集全文データベース)。

しかしながら,ライフサイエンス系のデータベースでは,文字情報が少ないデータベースも少なくありません。そうしたデータベースにユーザーにアクセスをして頂くためには,ライフサイエンス系のデータベースに共通しているキーワードや各データベース,あるいはそのデータベースの分野において共通に重要であると思われるキーワードをピックアップすることが重要ではないかと考えています。Sagaceでは,データベース管理者の方にご協力いただき,メタデータを各データベースが公開されているウェブページにマークアップして頂くことにより,ユーザーとデータベースを結びつける入り口としての役割を強化したい,と考えています。

対象となるサービス

目的とゴール

目的

  • ユーザーとデータベースのマッチングの推進。
    • ユーザー : 検索結果を見てそのエントリーが自分が探しているものか否かを瞬時に判断できる。
    • データベース管理者 : より多くのユーザーにデータベースを使ってもらえる。新規ユーザー開拓に繋がる。
    • 横断検索サービス提供者 : 単一のクローラーで重要なデータをピックアップできる。

ゴール

  • データベースのデータのマークアップを普及・推進し,よりよい検索結果を提供することで,ライフサイエンス系のデータベース(Sagaceの場合は創薬・疾患に関わるデータベース)とユーザーを効率よく結びつけること。
  • W3CのSchema.org extensionの1つとして採択されること。

BH13.13でのゴール

  • より多くのデータベースにマークアップをして頂く。
  • RDFa Liteを使って,Schema.org以外のRDF語彙をどう検索結果に活かし,どのような基準を設けるか方向付けをする。

これまでの取り組み

BioHackathonでの活動報告とマークアップ方法について

Schema.org Extension

  • Sagaceでは,これまで,Microdataのマークアップ方法の簡潔さ,使用を推奨されているボキャブラリの定義の明確さ,RDFaの複雑性とmicroformatsの定義の曖昧さからmicrodataでのマークアップを推奨してきました。また,microdataでのマークアップを推奨するため,Biological Database とBiological Database Entryのボキャブラリをschema.orgへの追加を目標として活動を続けてきました。

Schema.orgのボキャブラリ(プロパティ)案

ボキャブラリを考えるための参考になるページ

Microdataでマークアップ済みのデータベース (Many thanks !!)

RDFa Lite採用の経緯

  • 前述のとおり,Sagaceでは,htmlをマークアップする方法としてmicrodataを推奨してきました。しかしながら,現状として下記の問題点がありました。
    • Microdataだと(原則)Schema.orgのボキャブラリしか使えない。
    • MicrodataはW3C Working Groupであり,Recommendationではない。
  • 調査の結果,RDFa Liteがこれらの問題を解決する可能性があることが分かってきました。

RDFa Liteとは?

  • Schema.orgやMicrodataの普及にともない,W3CがRDFaをかなり単純化させて制定した形式
  • W3C recommendation
  • schema.orgのボキャブラリ体系を基本としながら,外部のRDFのボキャブラリも柔軟に適用可能。
  • マークアップが簡単

参照URL

MicrodataまたはRDFa Liteの埋め込み例と検索結果への反映について

  • 現在反映をされているプロパティは以下のとおりです。
    • image  (画像)
    • isEntryOf  (どのデータベース由来か)
    • entryID (エントリーID)
    • taxon(生物種)
    • disease (疾患名)
    • seeAlso (他の参考となるデータベースのエントリ)
    • dateModified (最終更新日)
    • reference (文献)
  • 詳しいマークアップ方法と反映のイメージはこちらをご覧ください。

Schema.org以外のボキャブラリを使用してマークアップする場合

ex1) PDBj

DBエントリー例

1GOF
NOVEL THIOETHER BOND REVEALED BY A 1.7 ANGSTROMS CRYSTAL STRUCTURE OF GALACTOSE OXIDASE
1GOFの概要
 分子名称	GALACTOSE OXIDASE (E.C.1.1.3.9) (PH 4.5)
機能のキーワード	OXIDOREDUCTASE(OXYGEN(A))
由来する生物種	Hypomyces rosellus
ポリマー鎖の合計数	1
分子量の合計	68785.89
著者	
Ito, N.,Phillips, S.E.V.,Knowles, P.F. (登録日: 1993-09-30, 公開日: 1994-01-31, 最終更新日: 2011-07-13)
引用文献	
Ito, N., Phillips, S.E., Stevens, C., Ogel, Z.B., McPherson, M.J., Keen, J.N., Yadav, K.D., Knowles, P.F.
Novel thioether bond revealed by a 1.7 A crystal structure of galactose oxidase.
Nature, 350:87-90, 1991
PubMed: 2002850
DOI: 10.1038/350087a0
MImport into Mendeley
実験手法	
X-RAY DIFFRACTION (1.7 Å)
……
Copyright © 2013-2014 日本蛋白質構造データバンク

現在の検索結果

pdbjから得られた検索結果

マークアップ例

<div prefix="PDBo : http://rdf.wwpdb.org/schema/pdbx-v40.owl#">
<span property="PDBo:exptl.method">X-RAY  DIFFRACTION</span>
</div>

検索結果への反映(イメージ)

pdbjから得られた検索結果

マークアップ例(フル)

<body vocab=“http://schema.org/” typeof=“BiologicalDatabaseEntry”>
<span property="entryID">1GOF</span>
<img property="image" src="http://pdbj.org/pdb_images/1gof.jpg" />

<span property="taxon" vocab="http://schema.org/" typeof="BiologicalDatabaseEntry">   
  Organism: <span property="name">Hypomyces rosellus</span> (human)  
  Taxonomy ID: <a property="url" href="http://www.uniprot.org/taxonomy/5132"><span property="entryID">5132</span></a> 
 </span>

<meta property='reference' content='pmid:2002850' />PubMed:2002850
<span property="dateModified">2014-1-24</span>

<div prefix="PDBo: http://rdf.wwpdb.org/schema/pdbx-v40.owl#">
<span property="PDBo:exptl.method">X-RAY  DIFFRACTION</span>
</div>

<span property="seeAlso" vocab="http://schema.org/" typeof="BiologicalDatabaseEntry">
  <span property="isEntryOf" vocab="http://schema.org/" typeof="BiologicalDatabase">
   <span property="name">UniProt</span> </span>: 
   <a property="url" href="http://www.uniprot.org/uniprot/Q01745"><span property="entryID">Q01745</span></a> 
 </span>
<span property="seeAlso" vocab="http://schema.org/" typeof="BiologicalDatabaseEntry">
  <span property="isEntryOf" vocab="http://schema.org/" typeof="BiologicalDatabase">
   <span property="name">KEGG</span> </span>: 
   <a property="url" href="http://www.genome.jp/dbget-bin/www_bget?ec:1.1.3.9"><span property="entryID">EC 1.1.3.9</span></a> 
 </span>
<span property="seeAlso" vocab="http://schema.org/" typeof="BiologicalDatabaseEntry">
  <span property="isEntryOf" vocab="http://schema.org/" typeof="BiologicalDatabase">
   <span property="name">Pfam</span> </span>: 
   <a property="url" href="http://pfam.sanger.ac.uk/family/PF00754"><span property="entryID">PF00754</span></a> 
 </span>


  Copyright © 2013-2014 <span property="isEntryOf" typeof="BiologicalDatabase">
     <a property="url" href="http://pdbj.org/">
      <span property="name">日本蛋白質構造データバンク</span>
   </span>

検索結果への反映

pdbjから得られた検索結果

BH13.13における進捗

紹介資料

導入してくださったDB

自由記述欄

  • 質問,コメント募集します。お気軽にお書きいただければと思います
    • Q. MicrodataとRDFa Liteの使い分けは何か(村上さん)
    • A. 現在RDFを使用したり,独自のボキャブラリを定義している場合は,RDFa Lite推奨です。ただ,Sagaceでどこまでサポートをするのか,何をピックアップするのかについては,相談の上,決めてSagace上のページに掲載したいと考えています。その際,同一のものを違うボキャブラリで表現するようにはしないようにしたいと考えています。 特にRDFを使っていない場合や,schema.org extensionの活動をプッシュする場合には,microdataを推奨します。(真和吏)
    • Q. マークアップするタグは何でも良いのか。(山田さん)
    • A. 何でも構いません。microdataの場合も,RDFa Liteの場合もそれが含まれているタグが覆われている部分に,ボキャブラリを書いて頂き,その範囲内にitemprop,または,propertyでpredicateに該当するものをお書き頂き,itempropまたは,propertyが書かれているタグで含まれている部分(metaタグの場合はcontentの中身)にObjectに該当する中身をお書き頂ければと思います。

マークアップのイメージ(概念図)

    • Q. imageタグは,メタデータというより属性ではないか。(金さん)
    • A. 確かにタグ自体は属性であるのですが,実際にマークアップする中身としての意味は,特定のボキャブラリにおける画像であるという意味付けなので,マークアップする意味というのはあると考えています。
    • Q. 機械学習を使って自動的にマークアップするツールが出来れば,より多くの方に使って頂けるのではないか(金さん,五十嵐さん)
    • A. 確かに有用なツールだと思います。そして,技術的にも頑張れば可能かもしれません。ただ,それだと,クローラーを個別に書くという操作に近くなってしまい,エフォートが大きくなってしまうと思うので,現在のところ作る予定はありません…(真和吏)
    • Q. マークアップをしてみたが,Extractorが取ってこれていない…(山田さん)
    • A. データ量が多いと,ウェブ上のツールでは対応しきれないことがあるので,その場合は,github[1]からプログラムをダウンロードして,実行して頂ければと思います。
    • Q. 文献のマークアップについて,web上には番号しか書いておらず,IDが書いていない場合はどうすれば良いのか(山田さん)。
    • A. その場合には,idの種類が限定できないので, metaタグをご使用ください。

Microdataの例

<span itemscope itemtype="http://schema.org/BiologicalDatabaseEntry">
<meta itemprop='reference' content='pmid:23110816' />
</span>

RDFa Liteの例

<span vocab="http://schema.org/" typeof="BiologicalDatabaseEntry">
<meta property='reference' content='pmid:23110816' />
</span>
    • Q. Googleの検索結果との比較において,1つの検索語に着目してピックアップした検索結果例だけでは,信頼性が低いのではないか。(小寺さん)
    • A. 検索結果を評価する方法としてF値(Precision,Recallから検索結果の評価を行う方法)がある。現状では,どう評価するかが難しいので,現状,評価を行うことは優先順位として高く考えていないです…。(真和吏)
    • Q. htmlに直接マークアップするという操作は,普段それらの操作を行っていない人にとっては,とても難しいのではないか。例えば,使用しているボキャブラリやプロパティが何であるかも覚えてないとマークアップしにくい。(小野さん,飯田さん)
    • A. 確かにそうですね。Googleでは,構造化データ マークアップ支援ツール - https://support.google.com/webmasters/answer/3069489?hl=ja というもので,簡単にマークアップするツールがあります。Sagaceにおいても,もう少しマークアップを支援するツールについて出来ないかどうか検討してみます。(真和吏)
    • Q. wordpressにはプラグインがあるのでは?(小野さん)
    • A. microdataについては,直接Biological Database(Entry)をマークアップするものは無いのですが,一般的なボキャブラリをマークアップするものや,参考となるサイト - http://nendeb.jp/?p=691 はあります。ぐぐる - https://www.google.com/#q=wordpress+microdata (真和吏)

メンバー

  • 伊藤真和吏(maori@nibio.go.jp)
  • 森田瑞樹(mizuki@nibio.go.jp)
/mw/BH13.13/crosssearch」より作成