BH14.14/Textmining

提供:TogoWiki

移動: 案内, 検索

テキストマイニングなどによる知識抽出

  • テキストデータとの統合によるRDF検索I/Oの標準化準備(小林)
    • Apache Lucene との連携など(山本)

PubAnnotation型式のドキュメントを入力として、それらを全文検索できるようにインデックス生成機能を実装した(2月3日完了)

さらに、全文検索の結果として、キーワードとアノテーションを同時に表示できるよううなPubAnnotationドキュメントを生成する機能を作った(2月3日完了)


PubAnnotation全文検索機能の実装

作業: 小林

  • Index作成

JSON形式のPubAnnotationドキュメント (Project, target, divisionの3つ組でユニークな参照を構成) を動的に(検索サービス提供中であっても)追加、削除できる機能を作った

検索対象は、Text、Denotationのobj (アノテーション付けられるbio-entity (RDFリソース含む))

  • Servlet

検索エンジンはJava servletとして実装されている

http://lcoalhost:8080/pubAnnotation/search?query="cancer"&mode="json"

検索結果は、キーワードでハイライトされ、検索スコアが付されたPubAnnotationドキュメント列として返される。

出力形式は、JSONとtextAEから選べるようにした。

  • 改良点

PubAnnotation全ドキュメントをindex化 (数千万件くらいなら難しくはない)

出力結果について、キーワードの前後のみダイジェスト表示できるようにする。

textAEの表示を工夫してハイライトとアノテーション(denotation, relation)を美しく表示できるようにする。

PubAnnotation公式ページに採用してもらう。

Virtuoso (SPARQL endpoint with Lucene) にも対応させる。

個人用ツール