高速アミノ酸配列検索

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(検索したいデータベースを追加)
(検索したいデータベースを編集)
9行: 9行:
== 検索したいアミノ酸配列のデータベース ==
== 検索したいアミノ酸配列のデータベース ==
 +
 +
アミノ酸配列のmulti-FASTAを作れば簡単にDB追加できるようにしたい。
* UniProt
* UniProt
18行: 20行:
* GENCODE
* GENCODE
** RefSeqよりもtranscriptのvariantが網羅されている
** RefSeqよりもtranscriptのvariantが網羅されている
-
** アミノ酸配列に翻訳する必要がある
+
** Human, Release 27 (2017/1) 配列数: 95,659 残基数: 35,656,600
 +
** FASTA: ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_27/gencode.v27.pc_translations.fa.gz
* (ヒト)ゲノム
* (ヒト)ゲノム
-
** 全フレーム翻訳してアミノ酸配列に変換したもの
+
** 全フレーム翻訳してアミノ酸配列に変換したもの(〜6G残基)を検索
*** 未知のペプチドをゲノムから探せるようにする
*** 未知のペプチドをゲノムから探せるようにする
 +
*** tblastnのような感じ
** 疾患ゲノム(リファレンスゲノムとの差分だけで十分)
** 疾患ゲノム(リファレンスゲノムとの差分だけで十分)
*** 疾患固有のタンパクを検索できるようにする
*** 疾患固有のタンパクを検索できるようにする

2017年8月31日 (木) 07:34時点における版

目次

概要

  • アミノ酸配列の検索に特化したサイト
  • 短いアミノ酸配列をミスマッチを許容しつつ高速に検索したい
    • 高速ゲノム検索GGGenomeのアミノ酸配列版に相当
    • MS解析などに役立つ

検索アルゴリズムとインターフェース

検索したいアミノ酸配列のデータベース

アミノ酸配列のmulti-FASTAを作れば簡単にDB追加できるようにしたい。

  • UniProt
    • まずはヒトのsubsetを対象とする
  • RefSeqタンパク (NP_* / XP_*)
  • GENCODE
  • (ヒト)ゲノム
    • 全フレーム翻訳してアミノ酸配列に変換したもの(〜6G残基)を検索
      • 未知のペプチドをゲノムから探せるようにする
      • tblastnのような感じ
    • 疾患ゲノム(リファレンスゲノムとの差分だけで十分)
      • 疾患固有のタンパクを検索できるようにする
  • PDB

検討事項

  • サービスの名称
    • GGGenome(ゲゲゲノム)様のネーミングを踏襲しPPProt(プププロット)、PPPeptide(ぺぺペプチド)などが候補
      • PPとは?(ねたがみつからない)
個人用ツール