BH13.13/pubdictionaries

提供:TogoWiki

移動: 案内, 検索

目次

辞書を用いたテキスト処理

参加者

  • 鈴木治夫(山口大学)
  • 森田瑞樹(東京大学)
  • 中島滋(ラグザイア
  • 山本泰智(DBCLS)
  • 金進東(DBCLS)


概要

  • 自分で作成した用語辞書を利用して,文章にアノテーションを付与する仕組み,を整備しています。
    • PubDictionaries →自分の辞書(CSV形式)を管理する仕組み
    • PubAnnotation →自分の辞書を利用して文章にアノテーションを付与する仕組み


この仕組みの特徴

  • Webブラウザ上で自分の用語辞書の管理をすることができます(PubDictionaries)。
  • Webブラウザ上でアノテーションの編集をすることができます(PubAnnotation)。
  • 辞書やアノテーションは共有することができます。
  • みんなで辞書やアノテーションを編集するような用途にも使えます。
    • Google Mapsの文献版
  • PubDictionariesPubAnnotationはそれぞれ独立なサービスで,REST APIで繋がる仕組みを取っているので,他のシステムとの連携もできます。


利用の流れ

  1. PubDictionariesに辞書をUpload
    • 「文字列, ID, label」のCSV
    • 辞書に基づくテキストアノテーションREST serviceが生成される
  2. PubAnnotationに文書を入れる
    • PubMed, PMCの論文などを入れることができる
  3. PubAnnotationからPubDictionariesを呼んでアノテーションを得る


用例

  • 遺伝子のアノテーションの表示(鈴木)
    • 遺伝子に付いているアノテーションは多様(人による違い,観点による違い,など)
    • 論文を読むときに,その論文に書いてあるアノテーション以外のアノテーションをすべて表示し,より理解を広げる&深める
    • 実際に論文に書くときに,どんなアノテーションがあるかがすぐに調べられる
  • 医療辞書の整備と医療テキストへのアノテーションの支援(森田)
    • 用語辞書の管理のためのツールとして
    • テキストの自動アノテーション・ツール用の正解データ作りを,医療従事者に手伝ってもらうためのツールとして
  • 教科書のソーシャル・リーディング(森田)
    • 教科書をPubAnnotationへアップロードして,そこへみんなで注釈,コメント,感想などを追加していく


実データ


  • 病名と症状の日本語辞書(森田)
    • ICD-10(International Statistical Classification of Diseases and Related Health Problems, 10th Edition)
      • 病名の分類(WHO)
    • ICPC-2(International Classification of Primary Care, 2nd Edition)
      • 病気の症状の分類(WONCA,WHO)


Done

  • PubDictionariesで日本語の辞書に対応した
  • PubAnnotationにFirst Author'sの文章を利用できるようにした
    • テスト版では自分の文章のアップロードができるようになった


To Do

  • PubAnnotationの日本語対応(アノテーションの編集機能)
  • 実データを利用したテスト
    • 日本語の使用についてのテスト
    • First Authorsを取り込むモジュールを整備
    • 自分のテキストをアップロードする機能を実装
  • ユースケースの洗い出し
  • PubDictionariesのPrivate辞書もアノテーションに使えるようにする
  • Public,Privateの間のGroup(?)モードを作る
個人用ツール