オルソログクラスターへの自動命名手法の開発

togoAnnotator

今までのターム	新ターム
B. USDA110 Kazusa gene def. term set	Reference Gene Definition
B. USDA110 OC gene def. term set	Source Gene Definition
辞書生成プロセス１	Dictionary construction
Ref. GDとSource GD共通部分	n-Longest Common Substrings, n-LCS
パーツ	Common substring
辞書	Dictionary = Common substring set
コーパス、共起性	Cooccurrence terms
クラスター解析実験	Output, Candidate
ガラガラポン	Top scored candidate
推薦	Candidate
プロセス2	Gene annotation
被覆（評価で候補を全部合わせると正解を再現）	Combined partial match

Ref. GDから作成したDic. の頻度情報、共起情報、順序情報を辞書マッチでも利用するようなアルゴリズムにする
辞書マッチを行う際に、Ref. GDから得られた前後に出現しやすいタームに関する情報を利用して、Combined Partial Matchを行う
複数 candidate が得られた場合には、それらの間の包含関係も考慮する (他の candidate に包含される candidate があれば、それは除外する)

先頭および末尾の空白文字、タブ文字を削除
Swiss-Prot, COGのIdentifierを削除
頭文字を小文字に置換 (不完全）
Swiss-Prot 個別の処理
1. Swiss-ProtのOS,GN,PE,SVを消去 ex.) OS=Bradyrhizobium japonicum GN=clpP1 PE=3 SV=1
2. 末端wordがGNと一致していた場合、頭文字を大文字に置換にしてタンパク質シンボル表記に置換
セミコロン以降の削除（例外処理あり）
末端カッコ () や [] の削除（例外処理あり）
カンマ以降の削除（例外処理あり）
1. ", putative"や", conserved"を前方修飾に置換
2. , XXX domainをcontaning XXX domainに置換
3. , XXX subunitを後方に結合
CGA1個別データの置換
1. "trasfer RNA"を"transfer RNA"に置換
2. ABC transporterの名寄せ
3. transcriptional regulatorの名寄せ
"similar to "を"putative "に置換
"conserved hypothetical protein","UPF protein"を"hypothetical protein"に置換
1. hypothetical protein "locus_tag"の "locus_tag"を削除
probable/putative処理
Swiss-ProtのGNからgene symbolの自動追加

自動アノテーションシステム
- Integrated Microbial Genomes (IGM)
- Rapid Annotation using Subsystems Technology (RAST)
- JCVI Annotation Service サービス停止中の模様
- MiGap
データソースについて
- 対象生物
  - Synechocystis sp. PCC6803
  - Synechococcus sp. PCC7942
- Source gene definition (OC)
  - KEGG OCのサブ階層からつくる - kwsmさんからデータをいただいてる