BH12.12/wild.type.count.data.DB
提供:TogoWiki
目次 |
目標
- wild.type.count.data.DB (野生型発現量DB)
- count dataがRDF化されているデータベースが存在しないため(たぶん)、RDF化してみる
- 行列型のcount dataをRDF化にする意義はあるかどうかを、作ってから考える
- count dataにメタ情報を関連付ける
- count dataがRDF化されているデータベースが存在しないため(たぶん)、RDF化してみる
- UT_Prot (UniProt/PDBで物足らない部分を補完するデータのRDF化)
- 同じコミュニティのプロジェクト(参考)
参加者(自由に付け加えてください)
- ◯孫建強 (東大・農)[アグリバイオインフォマティクス, NGS担当] Twitter @wukong08 | Skyepe:
- 込山悠介 (東大・農)[LOD化担当, 監修] Twitter: @YusukeKomiyama | Skyepe: hoehoe2nd
当日TODO(自由に付け加えてください)
DAY3(結果)
- 目標
- リードカウントデータをRDF化
- サンプルの組織名やマッピング方法などを指定すると、RDFデータベース中からリードカウントのデータを行列型データととして落としてくる
- 結果
- RDFの定義を甘く見すぎてた
- RDF化に至らず
- フラットファイルを利用したサンプル
- 発現量データを取ってくるRのコードを簡単に作ってみた[1]
- Rのコードはこんな感じに利用する
- これをRDF DB対応に拡張したい
- RDFの定義を甘く見すぎてた
library(Kashiwa) kashiwa <- Kashiwa$new(index = "index", DB = "count") count <- kashiwa$getCounts(SRR = c("SRR037453", "SRR037457")) head(count) count <- kashiwa$getCounts(PMID = c(18978789, 20167110, 21029860)) head(count)
- リードカウントのデータベース化について
- 非変異型のサンプルをたくさん集めることで、リードの分布パラメーターを計算できるかもしれません
- サンプル組織別とか
- マッピングツール別とか
- replicateなしのデータの解析の際に、利用できそう
- 非変異型のサンプルをたくさん集めることで、リードの分布パラメーターを計算できるかもしれません
DAY2
- RDF化にする前のファイルを作成した[2]
- 全50件のSRRファイルを特定した(ヒト・非変異型のSRR)
- サンプルの組織は主に脳(その他にすい臓、血球なども含む)
- SRR037452〜SRR037453のファイルに対して、リードカウントのデータを結びつけた
- マッピングツールやオプション情報など
- 全50件のSRRファイルを特定した(ヒト・非変異型のSRR)
DAY1
解析前のデータや解析ツールのプロパティ
データベース化に利用するプロパティ
プロパティ | フォーマット | URI |
PubMed id | 1000000 | http://purl.obolibrary.org/obo/OBI_0001617 |
SRR番号 | SRR000000 | |
サンプルの採取組織 | brain | http://purl.obolibrary.org/obo/FMA_9637 |
プラットフォーム | HiSeq 2000 | http://bioontology.org/projects/ontologies/birnlex#birnlex_2408 |
生物種 | Homo sapiens | http://purl.obolibrary.org/obo/NCBITaxon_species |
マッピングツール | bowtie2 2.0.0 | http://edamontology.org/topic_0102 |
マッピングツールオプション | -D 5 -R 1 -N 0 -L 22 -i S,0,2.50 -x <bt2-idx> {-1 <m1> -2 <m2> | -U <r>} -S [<hit>] | URI |
解析ツール | HTSeq 0.5.0 | http://edamontology.org/operation_2498 |
解析ツールオプション | -m union -a -t exon | URI |
Ensembl ID | http://edamontology.org/data_2610 | |
タグ(リード)カウント | http://purl.obolibrary.org/obo/GO_0010467 |
解析後のデータのプロパティ
メインテーブルからリンクされる。
解析後のデータは行列型のデータとする。
遺伝子名はEnsembl IDに統一する。
Ensembl ID | Count |
ENSG00000141510 | 10 |
ENSG00000141511 | 13 |
ENSG00000141512 | 2 |
データ抽出
- PubMedId.brain.txtにある59論文のabstractをダウンロード
- SRR番号、PubMed ID、プラットフォームなどを記録
- 19件調べた(うち、10件は欲しいデータがなかった)
TIPS(自由に付け加えてください)
- ツール
- データベース
- SRA, DRAの統合検索ができるデータベース
- SRAとPubMedの統合検索ができるデータベース
- リファレンス
事前TODO(自由に付け加えてください)
- SRAまたはDRAに登録されているデータのカテゴリ分けルールを調べる
- カウントデータをRDF化する際のフォーマットを考える
- TopHatとHTSeqのオプションのチューニング
- 今回はBowtie2を利用してマッピングしたデータをサンプルに用いる
- human brainに関して解析済みのカウントデータのSRRのIDをリストアップ
- SRR.wild-type-sample-id.txt
対象とする体組織
- 実際には複数の組織の野生株のカウントデータを対象にしたいが, 本ハッカソン中はこれに着目ヒト・脳にしぼり取り扱う.
- kusarinoko にてクエリを"wild brain"でhumanを検索. SRAのIDを持つPubMed中の論文は59件ヒット. resultのPMIDをリスト化した.
プロパティ
SRR番号 | |
細胞が属する組織の名前 | http://purl.obolibrary.org/obo/FMA_9637 |
シーケンサーの種類 | http://bioontology.org/projects/ontologies/birnlex#birnlex_2408 |
生物の種名 | http://purl.obolibrary.org/obo/NCBITaxon_species |
リードをリファレンスへマッピングするソフトウェアの名前 | http://edamontology.org/topic_0102 |
マッピング結果からカウントデータを計算するソフトウェアの名前 | http://edamontology.org/operation_2498 |
タグカウントデータ | http://purl.obolibrary.org/obo/GO_0010467 |
Ensembl ID | http://edamontology.org/data_2610 |
RDF投入前フォーマット
RDF投入前のフォーマット
id | SRR番号 | サンプルの組織名 | シーケンサ種類 | 種名 | マッピングツール | 解析ツール | BodyParts3D id | |
1 | SRR00000 | brain | HiSeq 2000 | Homo sapiens | Bowtie2 | HTSeq | FMA_0000 | ? |
2 | SRR00001 | brain | 5500 SOLiD | Homo sapiens | TopHat | HTSeq | FMA_0000 | ? |
Ensembl ID | 発現量(タグカウントデータ) |
ENSG00000141510 | 20 |
ENSG00000141511 | 2 |
草案(自由に付け加えてください)
◯count.data DBの作成(孫)
- ヒトとシロイヌナズナのシーケンサーデータを集める
- シーケンサーデータをSRAまたはDRAから集める
- そのデータに関連する論文を取り出す
- 論文からデータに関するメタ情報(サンプルの組織や実験環境など)を抽出する
- 野生株のデータだけをピックアップ
- マッピングや発現量の計算など
- TopHat
- HTSeq
- RSEM
- RDF化
- 計算されたカウントデータと論文から抽出したメタ情報の関連付けを行う
- RDF化する
アイデア出し(自由に付け加えてください)
- ゲノムアノテーション, op.ENcodeやテキストマイニングのグループとも協調する
kusarinoko | | PubMed id -----> togows SRA id ----- | | \|/ | 注釈(細胞組織、シーケンサーの型など) | | | \|/ -----> RDF化 /|\ BodyParts3D ---------| (FMA id)