高速アミノ酸配列検索

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(検索したいデータベースを編集)
(検索したいデータベースを編集)
12行: 12行:
アミノ酸配列のmulti-FASTAを作れば簡単にDB追加できるようにしたい。
アミノ酸配列のmulti-FASTAを作れば簡単にDB追加できるようにしたい。
-
* UniProt
+
* '''UniProt'''
** まずはヒトのsubsetを対象とする
** まずはヒトのsubsetを対象とする
-
* RefSeqタンパク (NP_* / XP_*)
+
* '''RefSeq'''のタンパク (NP_* / XP_*)
** Release 83 (2017/7) 配列数: 88,385,530 残基数: 34,113,050,666
** Release 83 (2017/7) 配列数: 88,385,530 残基数: 34,113,050,666
** FASTA: ftp://ftp.ncbi.nlm.nih.gov/refseq/release/complete/ → complete.*.protein.faa.gz
** FASTA: ftp://ftp.ncbi.nlm.nih.gov/refseq/release/complete/ → complete.*.protein.faa.gz
** まずはヒトのsubsetを対象とする
** まずはヒトのsubsetを対象とする
-
* GENCODE
+
* '''GENCODE'''のタンパク
** RefSeqよりもtranscriptのvariantが網羅されている
** RefSeqよりもtranscriptのvariantが網羅されている
-
** Human, Release 27 (2017/1) 配列数: 95,659 残基数: 35,656,600
+
** ヒト Release 27 (2017/1) 配列数: 95,659 残基数: 35,656,600
** FASTA: ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_27/gencode.v27.pc_translations.fa.gz
** FASTA: ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_27/gencode.v27.pc_translations.fa.gz
-
* (ヒト)ゲノム
+
* (ヒト)'''ゲノム'''
** 全フレーム翻訳してアミノ酸配列に変換したもの(〜6G残基)を検索
** 全フレーム翻訳してアミノ酸配列に変換したもの(〜6G残基)を検索
*** 未知のペプチドをゲノムから探せるようにする
*** 未知のペプチドをゲノムから探せるようにする
28行: 28行:
** 疾患ゲノム(リファレンスゲノムとの差分だけで十分)
** 疾患ゲノム(リファレンスゲノムとの差分だけで十分)
*** 疾患固有のタンパクを検索できるようにする
*** 疾患固有のタンパクを検索できるようにする
-
* PDB
+
* '''PDB'''
** アミノ酸配列から立体構造を検索
** アミノ酸配列から立体構造を検索
** Snapshot 20170710 エントリ数: 131,667 配列数: 408,865 残基数: 101,431,745
** Snapshot 20170710 エントリ数: 131,667 配列数: 408,865 残基数: 101,431,745

2017年8月31日 (木) 07:41時点における版

目次

概要

  • アミノ酸配列の検索に特化したサイト
  • 短いアミノ酸配列をミスマッチを許容しつつ高速に検索したい
    • 高速ゲノム検索GGGenomeのアミノ酸配列版に相当
    • MS解析などに役立つ

検索アルゴリズムとインターフェース

検索したいアミノ酸配列のデータベース

アミノ酸配列のmulti-FASTAを作れば簡単にDB追加できるようにしたい。

  • UniProt
    • まずはヒトのsubsetを対象とする
  • RefSeqのタンパク (NP_* / XP_*)
  • GENCODEのタンパク
  • (ヒト)ゲノム
    • 全フレーム翻訳してアミノ酸配列に変換したもの(〜6G残基)を検索
      • 未知のペプチドをゲノムから探せるようにする
      • tblastnのような感じ
    • 疾患ゲノム(リファレンスゲノムとの差分だけで十分)
      • 疾患固有のタンパクを検索できるようにする
  • PDB

検討事項

  • サービスの名称
    • GGGenome(ゲゲゲノム)様のネーミングを踏襲しPPProt(プププロット)、PPPeptide(ぺぺペプチド)などが候補
      • PPとは?(ねたがみつからない)
個人用ツール