BH14.14/Textmining

2015年2月6日 (金) 05:23時点におけるNori (トーク | 投稿記録)による版

テキストマイニングなどによる知識抽出

PubAnnotation型式のドキュメントを入力として、それらを全文検索できるようにインデックス生成機能を実装した（2月3日完了）

さらに、全文検索の結果として、キーワードとアノテーションを同時に表示できるよううなPubAnnotationドキュメントを生成する機能を作った（2月3日完了）

小林

JSON形式のPubAnnotationドキュメント　(Project, target, divisionの3つ組でユニークな参照を構成) を動的に（検索サービス提供中であっても）追加、削除できる機能を作った

検索対象は、Text、Denotationのobj (アノテーション付けられるbio-entity (RDFリソース含む))

検索エンジンはJava servletとして実装されている

検索結果は、キーワードでハイライトされ、検索スコアが付されたPubAnnotationドキュメント列として返される。

出力形式は、JSONとtextAEから選べるようにした。

PubAnnotation全ドキュメントをindex化 (数千万件くらいなら難しくはない)

出力結果について、キーワードの前後のみダイジェスト表示できるようにする。

textAEの表示を工夫してハイライトとアノテーション(denotation, relation)を美しく表示できるようにする。

PubAnnotation公式ページに採用してもらう。

Virtuoso (SPARQL endpoint with Lucene) にも対応させる。