オルソログクラスターへの自動命名手法の開発

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(ページの作成: == 参加者 ==)
 
(間の40版分が非表示)
1行: 1行:
 +
== togoAnnotator ==
 +
 +
== テクニカルタームの統一 -all ==
 +
{|border="1" cellpadding="2"
 +
|-
 +
| 今までのターム ||新ターム
 +
|-
 +
|B. USDA110 Kazusa gene def. term set||Reference Gene Definition
 +
|-
 +
|B. USDA110 OC gene def. term set||Source Gene Definition
 +
|-
 +
|辞書生成プロセス1||Dictionary construction
 +
|-
 +
|Ref. GDとSource GD共通部分||n-Longest Common Substrings, n-LCS
 +
|-
 +
|パーツ||Common substring
 +
|-
 +
|辞書||Dictionary = Common substring set
 +
|-
 +
|コーパス、共起性||Cooccurrence terms
 +
|-
 +
|クラスター解析実験||Output, Candidate
 +
|-
 +
|ガラガラポン||Top scored candidate
 +
|-
 +
|推薦||Candidate
 +
|-
 +
|プロセス2||Gene annotation
 +
|-
 +
|被覆(評価で候補を全部合わせると正解を再現)||Combined partial match
 +
|-
 +
|}
 +
 +
== 機能改善 -all ==
 +
* 共起情報を利用した新しいアルゴリズムについて
 +
# Ref. GDから作成したDic. の頻度情報、共起情報、順序情報を辞書マッチでも利用するようなアルゴリズムにする
 +
# 辞書マッチを行う際に、Ref. GDから得られた前後に出現しやすいタームに関する情報を利用して、Combined Partial Matchを行う
 +
# 複数 candidate が得られた場合には、それらの間の包含関係も考慮する (他の candidate に包含される candidate があれば、それは除外する)
 +
 +
== 入出力データ -all ==
 +
* 入力:Source GDをクエリとして与える
 +
* 入力:配列をクエリとして与える
 +
* 出力:API postの入力をJSONで返す
 +
 +
== 入力データーの前処理について -tf, so ==
 +
* Gene Definitionの「書式」[http://wiki.kazusa.or.jp/Projects:CGA1#.5Btransfer.5D_Definition.E3.81.AE.E3.83.97.E3.83.AD.E3.82.B0.E3.83.A9.E3.83.A0.E3.81.AB.E3.82.88.E3.82.8B.E5.BE.8C.E5.87.A6.E7.90.86 整形ルール]の明文化とスクリプト化(改善しつづける余地あり)
 +
# 先頭および末尾の空白文字、タブ文字を削除
 +
# Swiss-Prot, COGのIdentifierを削除
 +
# 頭文字を小文字に置換 (不完全)
 +
# Swiss-Prot 個別の処理
 +
##Swiss-ProtのOS,GN,PE,SVを消去 ex.) OS=Bradyrhizobium japonicum GN=clpP1 PE=3 SV=1
 +
##末端wordがGNと一致していた場合、頭文字を大文字に置換にしてタンパク質シンボル表記に置換
 +
# セミコロン以降の削除(例外処理あり)
 +
# 末端カッコ () や [] の削除(例外処理あり)
 +
# カンマ以降の削除(例外処理あり)
 +
## ", putative"や", conserved"を前方修飾に置換
 +
## , XXX domainをcontaning XXX domainに置換
 +
## , XXX subunitを後方に結合
 +
# CGA1個別データの置換
 +
## "trasfer RNA"を"transfer RNA"に置換
 +
## ABC transporterの名寄せ
 +
## transcriptional regulatorの名寄せ
 +
# "similar to "を"putative "に置換
 +
# "conserved hypothetical protein","UPF protein"を"hypothetical protein"に置換
 +
## hypothetical protein "locus_tag"の "locus_tag"を削除
 +
#probable/putative処理
 +
#Swiss-ProtのGNからgene symbolの自動追加
 +
 +
== 出力結果の評価(再設計) -all ==
 +
# 系統的に比較的近縁な、よくアノテーションされているバクテリア2種を選定
 +
# 片方をリファレンスにして辞書作成
 +
# もう一方のアノテーションを隠した状態で、自動アノテーションシステムにかける
 +
# 自動アノテーションの結果とtogoAnnotatorの出力結果を元のアノテーションと比較して再現性を評価
 +
 +
* 自動アノテーションシステム
 +
** [http://img.jgi.doe.gov/cgi-bin/pub/main.cgi Integrated Microbial Genomes (IGM)]
 +
** [http://rast.nmpdr.org Rapid Annotation using Subsystems Technology (RAST)]
 +
** [http://www.jcvi.org/cms/research/projects/annotation-service/overview JCVI Annotation Service] サービス停止中の模様
 +
** [http://migap.lifesciencedb.jp/ MiGap]
 +
* データソースについて
 +
** 対象生物
 +
*** [http://genome.kazusa.or.jp/cyanobase/Synechocystis Synechocystis sp. PCC6803]
 +
*** [http://genome.kazusa.or.jp/cyanobase/SYNPCC7942 Synechococcus sp. PCC7942]
 +
** Source gene definition (OC)
 +
*** KEGG OCのサブ階層からつくる - kwsmさんからデータをいただいてる
 +
 +
== サービス -all ==
 +
* [http://migap.lifesciencedb.jp/ MiGAP]への組み込み
 +
* Source GDとしてBlast検索などの結果をBookmarkletから入力してJSONで返す→TogoWS Blastの結果を入力できる?
 +
 +
== Biocuration 2010の総括 -yy ==
 +
* マニュアルキュレーションされた良い名前ならGO termをつかうべき。ないGO termがあれば作ればいい
 +
* 私たちも悩んでるので出来たらぜひ使いたい
 +
* オルソログクラスターは何を使うのか?→eggNOG, KEGG OC...任意の遺伝子セット
 +
* どうやってつかうのか?→尤もらしい名前をひとつだけ推薦する、アノテーターに複数の候補を推薦
 +
* オルソログクラスターの生物毎の対応は?→系統的にリファレンスセットの用意など
 +
 +
== 問題点 -all ==
 +
* 統計情報が貧弱な遺伝子の命名ルールの処理はどうしたらいいか -yy
 +
** 個別のルールベースでの解決?
 +
** KO, GOなどのマニュアルDBを補完的に使うべき -kwsm
 +
** サービスはトータル性能でしか評価されない -kwsm
 +
*** 統計情報が豊富に得られる遺伝子の命名手法を素直なアプローチで改善する部分から取り組み、統計情報が貧弱な部分は後回しにする
 +
*** 統計情報が貧弱な部分は、KO, GOなど、マニュアルDBによる名前が付いている遺伝子の名前を転載するアプローチなどで補完すればよいのではないか
== 参加者 ==
== 参加者 ==
 +
* 岡本 (so)
 +
* 山本 (yy)
 +
* 藤澤 (tf)
 +
* 川島 (kwsm)
 +
* BH10.10 2010.10.20-23
 +
 +
[[Category:bh10.10]]
 +
[[Category:TogoAnnotator]]

2013年8月21日 (水) 10:26時点における最新版

目次

togoAnnotator

テクニカルタームの統一 -all

今までのターム 新ターム
B. USDA110 Kazusa gene def. term setReference Gene Definition
B. USDA110 OC gene def. term setSource Gene Definition
辞書生成プロセス1Dictionary construction
Ref. GDとSource GD共通部分n-Longest Common Substrings, n-LCS
パーツCommon substring
辞書Dictionary = Common substring set
コーパス、共起性Cooccurrence terms
クラスター解析実験Output, Candidate
ガラガラポンTop scored candidate
推薦Candidate
プロセス2Gene annotation
被覆(評価で候補を全部合わせると正解を再現)Combined partial match

機能改善 -all

  • 共起情報を利用した新しいアルゴリズムについて
  1. Ref. GDから作成したDic. の頻度情報、共起情報、順序情報を辞書マッチでも利用するようなアルゴリズムにする
  2. 辞書マッチを行う際に、Ref. GDから得られた前後に出現しやすいタームに関する情報を利用して、Combined Partial Matchを行う
  3. 複数 candidate が得られた場合には、それらの間の包含関係も考慮する (他の candidate に包含される candidate があれば、それは除外する)

入出力データ -all

  • 入力:Source GDをクエリとして与える
  • 入力:配列をクエリとして与える
  • 出力:API postの入力をJSONで返す

入力データーの前処理について -tf, so

  • Gene Definitionの「書式」整形ルールの明文化とスクリプト化(改善しつづける余地あり)
  1. 先頭および末尾の空白文字、タブ文字を削除
  2. Swiss-Prot, COGのIdentifierを削除
  3. 頭文字を小文字に置換 (不完全)
  4. Swiss-Prot 個別の処理
    1. Swiss-ProtのOS,GN,PE,SVを消去 ex.) OS=Bradyrhizobium japonicum GN=clpP1 PE=3 SV=1
    2. 末端wordがGNと一致していた場合、頭文字を大文字に置換にしてタンパク質シンボル表記に置換
  5. セミコロン以降の削除(例外処理あり)
  6. 末端カッコ () や [] の削除(例外処理あり)
  7. カンマ以降の削除(例外処理あり)
    1. ", putative"や", conserved"を前方修飾に置換
    2. , XXX domainをcontaning XXX domainに置換
    3. , XXX subunitを後方に結合
  8. CGA1個別データの置換
    1. "trasfer RNA"を"transfer RNA"に置換
    2. ABC transporterの名寄せ
    3. transcriptional regulatorの名寄せ
  9. "similar to "を"putative "に置換
  10. "conserved hypothetical protein","UPF protein"を"hypothetical protein"に置換
    1. hypothetical protein "locus_tag"の "locus_tag"を削除
  11. probable/putative処理
  12. Swiss-ProtのGNからgene symbolの自動追加

出力結果の評価(再設計) -all

  1. 系統的に比較的近縁な、よくアノテーションされているバクテリア2種を選定
  2. 片方をリファレンスにして辞書作成
  3. もう一方のアノテーションを隠した状態で、自動アノテーションシステムにかける
  4. 自動アノテーションの結果とtogoAnnotatorの出力結果を元のアノテーションと比較して再現性を評価

サービス -all

  • MiGAPへの組み込み
  • Source GDとしてBlast検索などの結果をBookmarkletから入力してJSONで返す→TogoWS Blastの結果を入力できる?

Biocuration 2010の総括 -yy

  • マニュアルキュレーションされた良い名前ならGO termをつかうべき。ないGO termがあれば作ればいい
  • 私たちも悩んでるので出来たらぜひ使いたい
  • オルソログクラスターは何を使うのか?→eggNOG, KEGG OC...任意の遺伝子セット
  • どうやってつかうのか?→尤もらしい名前をひとつだけ推薦する、アノテーターに複数の候補を推薦
  • オルソログクラスターの生物毎の対応は?→系統的にリファレンスセットの用意など

問題点 -all

  • 統計情報が貧弱な遺伝子の命名ルールの処理はどうしたらいいか -yy
    • 個別のルールベースでの解決?
    • KO, GOなどのマニュアルDBを補完的に使うべき -kwsm
    • サービスはトータル性能でしか評価されない -kwsm
      • 統計情報が豊富に得られる遺伝子の命名手法を素直なアプローチで改善する部分から取り組み、統計情報が貧弱な部分は後回しにする
      • 統計情報が貧弱な部分は、KO, GOなど、マニュアルDBによる名前が付いている遺伝子の名前を転載するアプローチなどで補完すればよいのではないか

参加者

  • 岡本 (so)
  • 山本 (yy)
  • 藤澤 (tf)
  • 川島 (kwsm)
  • BH10.10 2010.10.20-23
個人用ツール