BH13.13/pubdictionaries
提供:TogoWiki
(版間での差分)
Morita.mizuki (トーク | 投稿記録) 細 |
Morita.mizuki (トーク | 投稿記録) 細 |
||
15行: | 15行: | ||
=== この仕組みの特徴 === | === この仕組みの特徴 === | ||
- | * | + | * Webブラウザ上で自分の用語辞書の管理をすることができます([http://pubdictionaries.dbcls.jp PubDictionaries])。 |
- | * | + | * Webブラウザ上でアノテーションの編集をすることができます([http://pubdictionaries.org PubAnnotation])。 |
* 辞書やアノテーションは共有することができます。 | * 辞書やアノテーションは共有することができます。 | ||
* みんなで辞書やアノテーションを編集するような用途にも使えます。 | * みんなで辞書やアノテーションを編集するような用途にも使えます。 | ||
** Google Mapsの文献版 | ** Google Mapsの文献版 | ||
- | * | + | * [http://pubdictionaries.dbcls.jp PubDictionaries]と[http://pubdictionaries.org PubAnnotation]はそれぞれ独立なサービスで,REST APIで繋がる仕組みを取っているので,他のシステムとの連携もできます。 |
=== 利用の流れ === | === 利用の流れ === | ||
- | # | + | # [http://pubdictionaries.dbcls.jp PubDictionaries]に辞書をUpload |
#* 「文字列, ID, label」のCSV | #* 「文字列, ID, label」のCSV | ||
#* 辞書に基づくテキストアノテーションREST serviceが生成される | #* 辞書に基づくテキストアノテーションREST serviceが生成される | ||
- | # | + | # [http://pubdictionaries.org PubAnnotation]に文書を入れる |
#* PubMed, PMCの論文などを入れることができる | #* PubMed, PMCの論文などを入れることができる | ||
- | # | + | # [http://pubdictionaries.org PubAnnotation]から[http://pubdictionaries.dbcls.jp PubDictionaries]を呼んでアノテーションを得る |
2014年1月31日 (金) 05:08時点における最新版
目次 |
辞書を用いたテキスト処理
参加者
- 鈴木治夫(山口大学)
- 森田瑞樹(東京大学)
- 中島滋(ラグザイア)
- 山本泰智(DBCLS)
- 金進東(DBCLS)
概要
- 自分で作成した用語辞書を利用して,文章にアノテーションを付与する仕組み,を整備しています。
- PubDictionaries →自分の辞書(CSV形式)を管理する仕組み
- PubAnnotation →自分の辞書を利用して文章にアノテーションを付与する仕組み
この仕組みの特徴
- Webブラウザ上で自分の用語辞書の管理をすることができます(PubDictionaries)。
- Webブラウザ上でアノテーションの編集をすることができます(PubAnnotation)。
- 辞書やアノテーションは共有することができます。
- みんなで辞書やアノテーションを編集するような用途にも使えます。
- Google Mapsの文献版
- PubDictionariesとPubAnnotationはそれぞれ独立なサービスで,REST APIで繋がる仕組みを取っているので,他のシステムとの連携もできます。
利用の流れ
- PubDictionariesに辞書をUpload
- 「文字列, ID, label」のCSV
- 辞書に基づくテキストアノテーションREST serviceが生成される
- PubAnnotationに文書を入れる
- PubMed, PMCの論文などを入れることができる
- PubAnnotationからPubDictionariesを呼んでアノテーションを得る
用例
- 遺伝子のアノテーションの表示(鈴木)
- 遺伝子に付いているアノテーションは多様(人による違い,観点による違い,など)
- 論文を読むときに,その論文に書いてあるアノテーション以外のアノテーションをすべて表示し,より理解を広げる&深める
- 実際に論文に書くときに,どんなアノテーションがあるかがすぐに調べられる
- 医療辞書の整備と医療テキストへのアノテーションの支援(森田)
- 用語辞書の管理のためのツールとして
- テキストの自動アノテーション・ツール用の正解データ作りを,医療従事者に手伝ってもらうためのツールとして
- 教科書のソーシャル・リーディング(森田)
- 教科書をPubAnnotationへアップロードして,そこへみんなで注釈,コメント,感想などを追加していく
実データ
- バクテリアゲノム辞書(鈴木)
- バクテリア遺伝子の機能アノテーションの辞書を作成。
- 比較的初期にコンプリートゲノム配列が解読された代表的なバクテリア15種におけるタンパク質遺伝子のアノテーションを、遺伝子IDを用いて、複数データベース(Genbank, COG, JCVI, SEED, VFDB)から収集した。
- Genbank -- ftp://ftp.ncbi.nih.gov/genomes/Bacteria/
- COG -- http://www.ncbi.nlm.nih.gov/COG/
- JCVI (Cellular Role: Mainrole and Subrole) -- http://cmr.jcvi.org/cgi-bin/CMR/shared/MakeFrontPages.cgi?page=geneattribute
- SEED -- http://www.theseed.org/, ftp://ftp.theseed.org/
- VFDB (Virulence Factors Database,病原因子のデータベース) -- http://www.mgc.ac.cn/VFs/
- 参考文献: "Comparative genomic analysis of the genus Staphylococcus including Staphylococcus aureus and its newly described sister species Staphylococcus simiae."
- 病名と症状の日本語辞書(森田)
Done
- PubDictionariesで日本語の辞書に対応した
- PubAnnotationにFirst Author'sの文章を利用できるようにした
- テスト版では自分の文章のアップロードができるようになった
To Do
- PubAnnotationの日本語対応(アノテーションの編集機能)
- 実データを利用したテスト
- 日本語の使用についてのテスト
- First Authorsを取り込むモジュールを整備
- 自分のテキストをアップロードする機能を実装
- ユースケースの洗い出し
- PubDictionariesのPrivate辞書もアノテーションに使えるようにする
- Public,Privateの間のGroup(?)モードを作る