Finding promoters containing TAF1 binding sites identified from a CHiP-seq experiment

提供:TogoWiki

2010年8月10日 (火) 06:17時点におけるNakao (トーク | 投稿記録)による版
移動: 案内, 検索
  • タイトル:Finding promoters containing TAF1 binding sites identified from a CHiP-seq experiment.
  • ノート:Suppose you performed a CHiP-seq experiment and identified a series of genomic regions that bind TAF1-protein. You now need to identify a list of genes that contain such sites. This can be easily done with Galaxy in just a few steps. To run this example yourself you will need a file containing genomic coordinates for TAF1- binding sites from the CHiP-seq experiment (an example file can be downloaded from here).
  • オリジナル:http://main.g2.bx.psu.edu/screencast

目次

シナリオ:ChiP-seqで解析して得られたTAF1結合サイトをプロモーターに持っている遺伝子を知りたい

TAF1ファイルアップロード

  1. ツール:Get Data/Upload File
  2. URL/Textに http://galaxy.psu.edu/CPMB/TAF1_CHiP.txt をURL/Text を入力
  3. Execute
  4. ヒストリーにデータセット1ができる。

human hg18に設定

  1. ヒストリーのデータセット1の database: ? の ?をクリック
  2. Database/Build: セレクトメニューでHuman Mar. 2006 (NCBI36/hg18) (hg18) を選択
  3. 保存

データタイプを interval に変更

  1. データセット1のペンシルツールをクリック
  2. データタイプの変更:New Typesセレクトメニューでintervalを選択
  3. 保存
  4. (つぎの画面に遷移:自動推定の場合は省略される)
  5. 2 col を chrom に、col 3, 4をスタート、エンドに変更
  6. Nameカラムをcal 5でチャックボックスをチェック
  7. 保存

遺伝子アノテーションをUCSC Table Browser から取得

  1. Get Data/UCSC main ツール
  2. Human Mar 2006 (hg18のこと)
  3. group: Genes and Gene Prediction Tracks
  4. track: RefSeq Genes
  5. region: genome
  6. output format: BED
  7. Send output to Galaxy チェックボックス
  8. get outout をクリック
  9. (つぎの画面に遷移)
  10. Whole genesであることを確認
  11. Send query to Galaxy をクリック
  12. (ヒストリがイエローの時は処理待ち)
  13. (処理が終わると、グリーン)
  14. 31,616 regions

ヒストリ2のリネーム

  1. ペンシルツール
  2. 長過ぎるので Name: RefSeq に変更
  3. 保存

プロモーター領域は遺伝子の1000塩基上流部分とする、それを取り出す

  1. Operate on Genomic Intervals/Get flanks ツール
  2. Select data: 2: RefSeq
  3. Location of the flanking region/s: Upstream
  4. length of the flanking region(s): 1000
  5. Execute をクリック

データセット3のリネーム

  1. ペンシルツール
  2. Name: Promoters
  3. 保存

データセット3(Promoters)のカラムを減らしたい。

  1. Text Manipulation/Cut ツール
  2. c1,c2,c3,c4,c6
  3. chrom, start, end, name, strand に対応
  4. 保存

データセット4のリネーム

  1. ペンシルツール
  2. Name: Clean Prom
  3. 保存

データセット4のデータタイプをintervalに変更

  1. Cutをするとデータ型情報が落ちるので再度型をつける。
  2. ペンシルツール
  3. タイプをintervalに変更
  4. Name が col 4 としてチェック
  5. Strand が col 5 としてチェック
  6. 保存

データセット4(Clean Prom)とデータセット1(TAF1結合サイト)をjoinする

  1. Operate on Genomic Intervals/Join ツール
  2. Join: 4. Clean Prom
  3. with: 1. TAF1_binding_site
  4. Execute
  5. 3万プロモータ領域と200結合サイトのジョインで98領域(104領域)くらいが得られた

UCSC genome browser で可視化します。

  1. Graph/Display Data/Build custom track for UCSC genome browserツール
  2. Add new Track をクリック
  3. これから三つのカスタムトラックを作成する(TAF結合サイト、全プロモーター、オーバーラップ)
  4. Track 1
    1. 1: TAF1_CHiP.txt
    2. name: "TAF1"
    3. description: "TAF1"
    4. color: Red
  5. Add new Trackをクリック
  6. Track 2
    1. 4: Clean Prom
    2. name: Prom
    3. description: Prom
    4. color: Green
  7. Add new Trackをクリック
  8. track 3
    1. 5: Join on data 1
    2. name: Overlap
    3. description: Overlap
    4. color: Blue
  9. Executeをクリック
  10. データセット6が作られる。

データセット6から確認

  1. display at UCSC mainリンクで別タブにUCSC genome browserが開く
  2. レッドが結合領域
  3. グリーンがプロモーター領域
  4. グリーンがオーバーラップ

FAQ

オーバーラップというより、重なりのあるプロモーター領域になっている?

  1. Joinツールは、二つのセットの重なりのあった領域(インターバル)を調べている。
  2. 領域(インターバル)は始点と終点でユニークになっている。
  3. 重なりのあったあたらしい領域ではなくて、二つのセットのなかから領域が選ばれている。

ChiP-seq とは?

TAF1 とは?

補遺:オーバーラップのあったプロモーターの配列について近縁種の領域と比較する =

オーバーラップの塩基配列(FASTAフォーマット)の取得

  1. Fetch Sequences / Extract Genomic DNA ツール
  2. Query: 5: join data 1 and 4 を選択
  3. Execute をクリック

オーバーラップのあるプロモーター領域の近縁種との多重配列整列をみる

  1. Fetch Alignments / Extract Pairwise MAF blocks ツール
  2. Choose intervals: 5: join data 1 and 4 を選択
  3. Choose alignments: 17-way multiZ (hg18) を選択
  4. ビルドと生物種名は http://genomewiki.ucsc.edu/index.php/Mm9_multiple_alignment を参照
  5. Choose spacies: でSelect Allをクリック
  6. Execute をクリック
  7. (しばしまつ)
  8. データセットが作られる。
個人用ツール