高速アミノ酸配列検索

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(作成)
(検索したいデータベースを追加)
3行: 3行:
* アミノ酸配列の検索に特化したサイト
* アミノ酸配列の検索に特化したサイト
* 短いアミノ酸配列をミスマッチを許容しつつ高速に検索したい
* 短いアミノ酸配列をミスマッチを許容しつつ高速に検索したい
 +
** 高速ゲノム検索GGGenomeのアミノ酸配列版に相当
** MS解析などに役立つ
** MS解析などに役立つ
10行: 11行:
* UniProt
* UniProt
 +
** まずはヒトのsubsetを対象とする
 +
* RefSeqタンパク (NP_* / XP_*)
 +
** Release 83 (2017/7) 配列数: 88,385,530 残基数: 34,113,050,666
 +
** FASTA: ftp://ftp.ncbi.nlm.nih.gov/refseq/release/complete/ → complete.*.protein.faa.gz
 +
** まずはヒトのsubsetを対象とする
 +
* GENCODE
 +
** RefSeqよりもtranscriptのvariantが網羅されている
 +
** アミノ酸配列に翻訳する必要がある
 +
* (ヒト)ゲノム
 +
** 全フレーム翻訳してアミノ酸配列に変換したもの
 +
*** 未知のペプチドをゲノムから探せるようにする
 +
** 疾患ゲノム(リファレンスゲノムとの差分だけで十分)
 +
*** 疾患固有のタンパクを検索できるようにする
 +
* PDB
 +
** アミノ酸配列から立体構造を検索
 +
** Snapshot 20170710 エントリ数: 131,667 配列数: 408,865 残基数: 101,431,745
 +
** FASTA: ftp://snapshots.pdbj.org/20170710/pub/pdb/derived_data/pdb_seqres.txt.gz (解凍後121MB)
== 検討事項 ==
== 検討事項 ==
15行: 33行:
* サービスの名称
* サービスの名称
** GGGenome(ゲゲゲノム)様のネーミングを踏襲しPPProt(プププロット)、PPPeptide(ぺぺペプチド)などが候補
** GGGenome(ゲゲゲノム)様のネーミングを踏襲しPPProt(プププロット)、PPPeptide(ぺぺペプチド)などが候補
-
*** PPって何?
+
*** PPとは?(ねたがみつからない)

2017年8月31日 (木) 07:07時点における版

目次

概要

  • アミノ酸配列の検索に特化したサイト
  • 短いアミノ酸配列をミスマッチを許容しつつ高速に検索したい
    • 高速ゲノム検索GGGenomeのアミノ酸配列版に相当
    • MS解析などに役立つ

検索アルゴリズムとインターフェース

検索したいアミノ酸配列のデータベース

  • UniProt
    • まずはヒトのsubsetを対象とする
  • RefSeqタンパク (NP_* / XP_*)
  • GENCODE
    • RefSeqよりもtranscriptのvariantが網羅されている
    • アミノ酸配列に翻訳する必要がある
  • (ヒト)ゲノム
    • 全フレーム翻訳してアミノ酸配列に変換したもの
      • 未知のペプチドをゲノムから探せるようにする
    • 疾患ゲノム(リファレンスゲノムとの差分だけで十分)
      • 疾患固有のタンパクを検索できるようにする
  • PDB

検討事項

  • サービスの名称
    • GGGenome(ゲゲゲノム)様のネーミングを踏襲しPPProt(プププロット)、PPPeptide(ぺぺペプチド)などが候補
      • PPとは?(ねたがみつからない)
個人用ツール