BH14.14/Textmining
提供:TogoWiki
テキストマイニングなどによる知識抽出
- テキストデータとの統合によるRDF検索I/Oの標準化準備(小林)
- Apache Lucene との連携など(山本)
PubAnnotation型式のドキュメントを入力として、それらを全文検索できるようにインデックス生成機能を実装した(2月3日完了)
さらに、全文検索の結果として、キーワードとアノテーションを同時に表示できるよううなPubAnnotationドキュメントを生成する機能を作った(2月3日完了)
PubAnnotation全文検索機能の実装
作業: 小林
- Index作成
JSON形式のPubAnnotationドキュメント (Project, target, divisionの3つ組でユニークな参照を構成) を動的に(検索サービス提供中であっても)追加、削除できる機能を作った
検索対象は、Text、Denotationのobj (アノテーション付けられるbio-entity (RDFリソース含む))
- Servlet
検索エンジンはJava servletとして実装されている
http://lcoalhost:8080/pubAnnotation/search?query="cancer"&mode="json"
検索結果は、キーワードでハイライトされ、検索スコアが付されたPubAnnotationドキュメント列として返される。
出力形式は、JSONとtextAEから選べるようにした。
- 改良点
PubAnnotation全ドキュメントをindex化 (数千万件くらいなら難しくはない)
出力結果について、キーワードの前後のみダイジェスト表示できるようにする。
textAEの表示を工夫してハイライトとアノテーション(denotation, relation)を美しく表示できるようにする。
PubAnnotation公式ページに採用してもらう。
Virtuoso (SPARQL endpoint with Lucene) にも対応させる。