BH12.12/生物種名のDBpedia Spotlight

提供:TogoWiki

移動: 案内, 検索

目次

概要

自然言語文中の生物種名を認識して自動的にURIのannotationをするシステムを作りたい. 理想的には日本語の自然言語文を入力するとその中でCommon NameやScientific Nameを認識して 対応するURIにリンクできると良い.

最初からそれを目指すのは大変なのでまず学名.

メンバー

  • 山本
  • 加藤

アプローチ

二通り考えられる.

DBpedia Spotlight自体を改造

ちょっと調べたところによると"SELECT TYPES..."でSpecies を指定すると良いみたい. しかしデフォルトのままだと一部の種名のみしか認識できていないように見える.

ソースからインストール

documentには"maven2を使え"とあるが現在のgithub masterはむしろmaven3じゃないと通らない


   $ git clone https://github.com/dbpedia-spotlight/dbpedia-spotlight.git
   $ cd dbpedia-spotlight
   $ mvn install
   

Data filesをダウンロード

   $ cd rest
   $ mvn scala:run '-DaddArgs=../conf/server.properties'

DBpedia Spotlightが使っているツール

独自作成

Linnaeusのように,生物種名に特化したNamed Entity Recognitionのシステムがあるのでそれを使うとか.


参考リンク

個人用ツール