オルソログクラスターへの自動命名手法の開発

提供:TogoWiki

移動: 案内, 検索

目次

togoAnnotator

テクニカルタームの統一 -all

今までのターム 新ターム
B. USDA110 Kazusa gene def. term setReference Gene Definition
B. USDA110 OC gene def. term setSource Gene Definition
辞書生成プロセス1Dictionary construction
Ref. GDとSource GD共通部分n-Longest Common Substrings, n-LCS
パーツCommon substring
辞書Dictionary = Common substring set
コーパス、共起性Cooccurrence terms
クラスター解析実験Output, Candidate
ガラガラポンTop scored candidate
推薦Candidate
プロセス2Gene annotation
被覆(評価で候補を全部合わせると正解を再現)Combined partial match

機能改善 -all

  • 共起情報を利用した新しいアルゴリズムについて
  1. Ref. GDから作成したDic. の頻度情報、共起情報、順序情報を辞書マッチでも利用するようなアルゴリズムにする
  2. 辞書マッチを行う際に、Ref. GDから得られた前後に出現しやすいタームに関する情報を利用して、Combined Partial Matchを行う
  3. 複数 candidate が得られた場合には、それらの間の包含関係も考慮する (他の candidate に包含される candidate があれば、それは除外する)

入出力データ -all

  • 入力:Source GDをクエリとして与える
  • 入力:配列をクエリとして与える
  • 出力:API postの入力をJSONで返す

入力データーの前処理について -tf, so

  • Gene Definitionの「書式」整形ルールの明文化とスクリプト化(改善しつづける余地あり)
  1. 先頭および末尾の空白文字、タブ文字を削除
  2. Swiss-Prot, COGのIdentifierを削除
  3. 頭文字を小文字に置換 (不完全)
  4. Swiss-Prot 個別の処理
    1. Swiss-ProtのOS,GN,PE,SVを消去 ex.) OS=Bradyrhizobium japonicum GN=clpP1 PE=3 SV=1
    2. 末端wordがGNと一致していた場合、頭文字を大文字に置換にしてタンパク質シンボル表記に置換
  5. セミコロン以降の削除(例外処理あり)
  6. 末端カッコ () や [] の削除(例外処理あり)
  7. カンマ以降の削除(例外処理あり)
    1. ", putative"や", conserved"を前方修飾に置換
    2. , XXX domainをcontaning XXX domainに置換
    3. , XXX subunitを後方に結合
  8. CGA1個別データの置換
    1. "trasfer RNA"を"transfer RNA"に置換
    2. ABC transporterの名寄せ
    3. transcriptional regulatorの名寄せ
  9. "similar to "を"putative "に置換
  10. "conserved hypothetical protein","UPF protein"を"hypothetical protein"に置換
    1. hypothetical protein "locus_tag"の "locus_tag"を削除
  11. probable/putative処理
  12. Swiss-ProtのGNからgene symbolの自動追加

出力結果の評価(再設計) -all

  1. 系統的に比較的近縁な、よくアノテーションされているバクテリア2種を選定
  2. 片方をリファレンスにして辞書作成
  3. もう一方のアノテーションを隠した状態で、自動アノテーションシステムにかける
  4. 自動アノテーションの結果とtogoAnnotatorの出力結果を元のアノテーションと比較して再現性を評価

サービス -all

  • MiGAPへの組み込み
  • Source GDとしてBlast検索などの結果をBookmarkletから入力してJSONで返す→TogoWS Blastの結果を入力できる?

Biocuration 2010の総括 -yy

  • マニュアルキュレーションされた良い名前ならGO termをつかうべき。ないGO termがあれば作ればいい
  • 私たちも悩んでるので出来たらぜひ使いたい
  • オルソログクラスターは何を使うのか?→eggNOG, KEGG OC...任意の遺伝子セット
  • どうやってつかうのか?→尤もらしい名前をひとつだけ推薦する、アノテーターに複数の候補を推薦
  • オルソログクラスターの生物毎の対応は?→系統的にリファレンスセットの用意など

問題点 -all

  • 統計情報が貧弱な遺伝子の命名ルールの処理はどうしたらいいか -yy
    • 個別のルールベースでの解決?
    • KO, GOなどのマニュアルDBを補完的に使うべき -kwsm
    • サービスはトータル性能でしか評価されない -kwsm
      • 統計情報が豊富に得られる遺伝子の命名手法を素直なアプローチで改善する部分から取り組み、統計情報が貧弱な部分は後回しにする
      • 統計情報が貧弱な部分は、KO, GOなど、マニュアルDBによる名前が付いている遺伝子の名前を転載するアプローチなどで補完すればよいのではないか

参加者

  • 岡本 (so)
  • 山本 (yy)
  • 藤澤 (tf)
  • 川島 (kwsm)
  • BH10.10 2010.10.20-23