Finding promoters containing TAF1 binding sites identified from a CHiP-seq experiment
提供:TogoWiki
- タイトル:Finding promoters containing TAF1 binding sites identified from a CHiP-seq experiment.
- ノート:Suppose you performed a CHiP-seq experiment and identified a series of genomic regions that bind TAF1-protein. You now need to identify a list of genes that contain such sites. This can be easily done with Galaxy in just a few steps. To run this example yourself you will need a file containing genomic coordinates for TAF1- binding sites from the CHiP-seq experiment (an example file can be downloaded from here).
- 作者:Galaxy team
- オリジナル:http://main.g2.bx.psu.edu/screencast
シナリオ:ChiP-seqで解析して得られたTAF1結合サイトをプロモーターに持っている遺伝子を知りたい
TAF1ファイルアップロード
- ツール:Get Data/Upload File
- URL/Textに http://galaxy.psu.edu/CPMB/TAF1_CHiP.txt をURL/Text を入力
- Execute
- ヒストリーにデータセット1ができる。
databaseを human hg18 に設定
- ヒストリーのデータセット1の database: ? の ?をクリック
- Database/Build: セレクトメニューでHuman Mar. 2006 (NCBI36/hg18) (hg18) を選択
- 保存
データタイプを interval に変更
- データセット1のペンシルツールをクリック
- データタイプの変更:New Typesセレクトメニューでintervalを選択
- 保存
- (つぎの画面に遷移:自動推定の場合は省略される)
- 2 col を chrom に、col 3, 4をスタート、エンドに変更
- Nameカラムをcal 5でチャックボックスをチェック
- 保存
遺伝子アノテーションをUCSC Table Browser から取得
- Get Data/UCSC main ツール
- UCSC table browserでの操作
- Human Mar 2006 (hg18のこと)
- group: Genes and Gene Prediction Tracks
- track: RefSeq Genes
- region: genome
- output format: BED
- Send output to Galaxy チェックボックス
- get outout をクリック
- (つぎの画面に遷移)
- Whole genesであることを確認
- Send query to Galaxy をクリック
- データセット2ができる。
- (ヒストリがイエローの時は処理待ち)
- (処理が終わると、グリーン)
データセット2のリネーム
- データセット2のペンシルツールをクリック
- 名前が長過ぎるので Name: RefSeq に変更
- 保存
プロモーター領域は遺伝子の1000塩基上流部分とする、それを取り出す
- Operate on Genomic Intervals/Get flanks ツール
- Select data: 2: RefSeq
- Location of the flanking region/s: Upstream
- length of the flanking region(s): 1000
- Execute
- データセット3ができる。
データセット3のリネーム
- ペンシルツール
- Name: Promoters
- 保存
データセット3(Promoters)のカラムを減らしたい。
- Text Manipulation/Cut ツール
- c1,c2,c3,c4,c6
- chrom, start, end, name, strand に対応
- 保存
データセット4のリネーム
- ペンシルツール
- Name: Clean Prom
- 保存
データセット4のデータタイプをintervalに変更
- Cutをするとデータ型情報が落ちるので再度型をつける。
- データセット4のペンシルツールをクリック
- タイプをintervalに変更
- Name が col 4 としてチェック
- Strand が col 5 としてチェック
- 保存
データセット4(Clean Prom)とデータセット1(TAF1結合サイト)をjoinする
- Operate on Genomic Intervals/Join ツール
- Join: 4. Clean Prom
- with: 1. TAF1_binding_site
- Execute
UCSC genome browser で可視化します。
- Graph/Display Data/Build custom track for UCSC genome browserツール
- Add new Track をクリック
- これから三つのカスタムトラックを作成する(TAF結合サイト、全プロモーター、オーバーラップ)
- Track 1
- 1: TAF1_CHiP.txt
- name: TAF1
- description: "TAF1"
- color: Red
- Add new Trackをクリック
- Track 2
- 4: Clean Prom
- name: Prom
- description: Prom
- color: Green
- Add new Trackをクリック
- track 3
- 5: Join on data 1
- name: Overlap
- description: Overlap
- color: Blue
- Executeをクリック
- データセット6が作られる。
データセット6から確認
- display at UCSC mainリンクで別タブにUCSC genome browserが開く
- レッドが結合領域
- グリーンがプロモーター領域
- グリーンがオーバーラップ
FAQ
オーバーラップというより、重なりのあるプロモーター領域になっている?
- Joinツールは、二つのセットの重なりのあった領域(インターバル)を調べている。
- 領域(インターバル)は始点と終点でユニークになっている。
- 重なりのあったあたらしい領域ではなくて、二つのセットのなかから領域が選ばれている。
ChiP-seq とは?
TAF1 とは?
補遺:オーバーラップのあったプロモーターの配列について近縁種の領域と比較する =
オーバーラップの塩基配列(FASTAフォーマット)の取得
- Fetch Sequences / Extract Genomic DNA ツール
- Query: 5: join data 1 and 4 を選択
- Execute
- データセット6ができる。
オーバーラップのあるプロモーター領域の近縁種との多重配列整列をみる
- Fetch Alignments / Extract Pairwise MAF blocks ツール
- Choose intervals: 5: join data 1 and 4 を選択
- Choose alignments: 17-way multiZ (hg18) を選択
- ビルドと生物種名は http://genomewiki.ucsc.edu/index.php/Mm9_multiple_alignment を参照
- Choose spacies: でSelect Allをクリック
- Execute
- (しばしまつ)
- データセット7が作られる。