高速アミノ酸配列検索

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(検索結果のスクリーンショットを追加)
(検索アルゴリズムとインターフェースを追加)
5行: 5行:
** 高速ゲノム検索GGGenomeのアミノ酸配列版に相当
** 高速ゲノム検索GGGenomeのアミノ酸配列版に相当
** MS解析などに役立つ
** MS解析などに役立つ
-
 
+
* サンプル画像
[[ファイル:Ppp_small.png]]
[[ファイル:Ppp_small.png]]
== 検索アルゴリズムとインターフェース ==
== 検索アルゴリズムとインターフェース ==
 +
 +
* 検索キーワードはアミノ酸配列のみ
 +
* 最短3残基から検索可能
 +
* ヒットのposition(先頭からの残基数)がわかるようにする
 +
* ミスマッチを許容して検索
 +
** アミノ酸置換マトリクスは使用せず、ミスマッチ残基数のみ考慮
 +
** クエリの例
 +
*** ACDEW(完全一致検索)または 0:ACDEW
 +
*** 1:ACDEW(1ミスマッチまで許容)
 +
*** 2:ACDEW(2ミスマッチまで許容、以下同様)
 +
* 複数のアミノ酸配列のAND検索、OR検索に対応
 +
** 検索結果の例
 +
*** 検索語ごとにヒット件数を表示
 +
FCW (23)
 +
1:ACDE (125)
 +
'''AND (3)'''
 +
** OR検索のヒット件数は、個々のクエリのヒット件数を足したものに概ね一致するので、わざわざ正確に計算して表示しなくてもよい
 +
** OR検索の結果一覧(ヒットをハイライト表示)がほしい
 +
*** 複数のモチーフがどのようにヒットしているか眺めたい
 +
*** 重なる部分は濃く表示、ゆくゆくはキーワードごとに色分け
 +
* 検索結果のランキング
 +
** ヒットしたキーワードの種類が多い順
 +
** 同じ場合は、ミスマッチの数が少ない順
 +
* REST APIを提供
 +
** HTML / TSV / CSV / JSON で出力
 +
** http://◯◯/uniprot/FCW+1:ACDE.csv のような感じ
 +
* デフォルトはAND検索、URL内では “+" で連結
 +
* ORをはさむとOR検索、URL内では ■ で連結(検討中)
== 検索したいアミノ酸配列のデータベース ==
== 検索したいアミノ酸配列のデータベース ==

2017年8月31日 (木) 08:21時点における版

目次

概要

  • アミノ酸配列の検索に特化したサイト
  • 短いアミノ酸配列をミスマッチを許容しつつ高速に検索したい
    • 高速ゲノム検索GGGenomeのアミノ酸配列版に相当
    • MS解析などに役立つ
  • サンプル画像

Ppp small.png

検索アルゴリズムとインターフェース

  • 検索キーワードはアミノ酸配列のみ
  • 最短3残基から検索可能
  • ヒットのposition(先頭からの残基数)がわかるようにする
  • ミスマッチを許容して検索
    • アミノ酸置換マトリクスは使用せず、ミスマッチ残基数のみ考慮
    • クエリの例
      • ACDEW(完全一致検索)または 0:ACDEW
      • 1:ACDEW(1ミスマッチまで許容)
      • 2:ACDEW(2ミスマッチまで許容、以下同様)
  • 複数のアミノ酸配列のAND検索、OR検索に対応
    • 検索結果の例
      • 検索語ごとにヒット件数を表示
FCW (23)
1:ACDE (125)
AND (3)
    • OR検索のヒット件数は、個々のクエリのヒット件数を足したものに概ね一致するので、わざわざ正確に計算して表示しなくてもよい
    • OR検索の結果一覧(ヒットをハイライト表示)がほしい
      • 複数のモチーフがどのようにヒットしているか眺めたい
      • 重なる部分は濃く表示、ゆくゆくはキーワードごとに色分け
  • 検索結果のランキング
    • ヒットしたキーワードの種類が多い順
    • 同じ場合は、ミスマッチの数が少ない順
  • REST APIを提供
  • デフォルトはAND検索、URL内では “+" で連結
  • ORをはさむとOR検索、URL内では ■ で連結(検討中)

検索したいアミノ酸配列のデータベース

アミノ酸配列のmulti-FASTAを作れば簡単にDB追加できるようにしたい。

  • UniProt
    • まずはヒトのsubsetを対象とする
  • RefSeqのタンパク (NP_* / XP_*)
  • GENCODEのタンパク
  • (ヒト)ゲノム
    • 全フレーム翻訳してアミノ酸配列に変換したもの(〜6G残基)を検索
      • 未知のペプチドをゲノムから探せるようにする
      • tblastnのような感じ
    • 疾患ゲノム(リファレンスゲノムとの差分だけで十分)
      • 疾患固有のタンパクを検索できるようにする
  • PDB

検討事項

  • サービスの名称
    • GGGenome(ゲゲゲノム)様のネーミングを踏襲しPPProt(プププロット)、PPPeptide(ぺぺペプチド)などが候補
      • PPとは?(ねたがみつからない)
個人用ツール