オルソログクラスターへの自動命名手法の開発
提供:TogoWiki
目次 |
togoAnnotator
テクニカルタームの統一 -all
今までのターム | 新ターム |
B. USDA110 Kazusa gene def. term set | Reference Gene Definition |
B. USDA110 OC gene def. term set | Source Gene Definition |
辞書生成プロセス1 | Dictionary construction |
Ref. GDとSource GD共通部分 | n-Longest Common Substrings, n-LCS |
パーツ | Common substring |
辞書 | Dictionary = Common substring set |
コーパス、共起性 | Cooccurrence terms |
クラスター解析実験 | Output, Candidate |
ガラガラポン | Top scored candidate |
推薦 | Candidate |
プロセス2 | Gene annotation |
被覆(評価で候補を全部合わせると正解を再現) | Combined partial match |
機能改善 -all
- 共起情報を利用した新しいアルゴリズムについて
- Ref. GDから作成したDic. の頻度情報、共起情報、順序情報を辞書マッチでも利用するようなアルゴリズムにする
- 辞書マッチを行う際に、Ref. GDから得られた前後に出現しやすいタームに関する情報を利用して、Combined Partial Matchを行う
- 複数 candidate が得られた場合には、それらの間の包含関係も考慮する (他の candidate に包含される candidate があれば、それは除外する)
入出力データ -all
- 入力:Source GDをクエリとして与える
- 入力:配列をクエリとして与える
- 出力:API postの入力をJSONで返す
入力データーの前処理について -tf, so
- Gene Definitionの「書式」整形ルールの明文化とスクリプト化(改善しつづける余地あり)
- 先頭および末尾の空白文字、タブ文字を削除
- Swiss-Prot, COGのIdentifierを削除
- 頭文字を小文字に置換 (不完全)
- Swiss-Prot 個別の処理
- Swiss-ProtのOS,GN,PE,SVを消去 ex.) OS=Bradyrhizobium japonicum GN=clpP1 PE=3 SV=1
- 末端wordがGNと一致していた場合、頭文字を大文字に置換にしてタンパク質シンボル表記に置換
- セミコロン以降の削除(例外処理あり)
- 末端カッコ () や [] の削除(例外処理あり)
- カンマ以降の削除(例外処理あり)
- ", putative"や", conserved"を前方修飾に置換
- , XXX domainをcontaning XXX domainに置換
- , XXX subunitを後方に結合
- CGA1個別データの置換
- "trasfer RNA"を"transfer RNA"に置換
- ABC transporterの名寄せ
- transcriptional regulatorの名寄せ
- "similar to "を"putative "に置換
- "conserved hypothetical protein","UPF protein"を"hypothetical protein"に置換
- hypothetical protein "locus_tag"の "locus_tag"を削除
- probable/putative処理
- Swiss-ProtのGNからgene symbolの自動追加
出力結果の評価(再設計) -all
- 系統的に比較的近縁な、よくアノテーションされているバクテリア2種を選定
- 片方をリファレンスにして辞書作成
- もう一方のアノテーションを隠した状態で、自動アノテーションシステムにかける
- 自動アノテーションの結果とtogoAnnotatorの出力結果を元のアノテーションと比較して再現性を評価
- 自動アノテーションシステム
- データソースについて
- 対象生物
- Source gene definition (OC)
- KEGG OCのサブ階層からつくる - kwsmさんからデータをいただいてる
サービス -all
- MiGAPへの組み込み
- Source GDとしてBlast検索などの結果をBookmarkletから入力してJSONで返す→TogoWS Blastの結果を入力できる?
Biocuration 2010の総括 -yy
- マニュアルキュレーションされた良い名前ならGO termをつかうべき。ないGO termがあれば作ればいい
- 私たちも悩んでるので出来たらぜひ使いたい
- オルソログクラスターは何を使うのか?→eggNOG, KEGG OC...任意の遺伝子セット
- どうやってつかうのか?→尤もらしい名前をひとつだけ推薦する、アノテーターに複数の候補を推薦
- オルソログクラスターの生物毎の対応は?→系統的にリファレンスセットの用意など
問題点 -all
- 統計情報が貧弱な遺伝子の命名ルールの処理はどうしたらいいか -yy
- 個別のルールベースでの解決?
- KO, GOなどのマニュアルDBを補完的に使うべき -kwsm
- サービスはトータル性能でしか評価されない -kwsm
- 統計情報が豊富に得られる遺伝子の命名手法を素直なアプローチで改善する部分から取り組み、統計情報が貧弱な部分は後回しにする
- 統計情報が貧弱な部分は、KO, GOなど、マニュアルDBによる名前が付いている遺伝子の名前を転載するアプローチなどで補完すればよいのではないか
参加者
- 岡本 (so)
- 山本 (yy)
- 藤澤 (tf)
- 川島 (kwsm)
- BH10.10 2010.10.20-23