BH12.12/wild.type.count.data.DB

提供:TogoWiki

移動: 案内, 検索

目次

目標

  • wild.type.count.data.DB (野生型発現量DB)
    • count dataがRDF化されているデータベースが存在しないため(たぶん)、RDF化してみる
      • 行列型のcount dataをRDF化にする意義はあるかどうかを、作ってから考える
      • count dataにメタ情報を関連付ける


  • UT_Prot (UniProt/PDBで物足らない部分を補完するデータのRDF化)
同じコミュニティのプロジェクト(参考)

参加者(自由に付け加えてください)

  • ◯孫建強 (東大・農)[アグリバイオインフォマティクス, NGS担当] Twitter @wukong08 | Skyepe:
  • 込山悠介 (東大・農)[LOD化担当, 監修] Twitter: @YusukeKomiyama | Skyepe: hoehoe2nd

当日TODO(自由に付け加えてください)

DAY3(結果)

  • 目標
    • リードカウントデータをRDF化
    • サンプルの組織名やマッピング方法などを指定すると、RDFデータベース中からリードカウントのデータを行列型データととして落としてくる
  • 結果
    • RDFの定義を甘く見すぎてた
      • RDF化に至らず
    • フラットファイルを利用したサンプル
      • 発現量データを取ってくるRのコードを簡単に作ってみた[1]
      • Rのコードはこんな感じに利用する
      • これをRDF DB対応に拡張したい
library(Kashiwa)

kashiwa <- Kashiwa$new(index = "index", DB = "count")

count <- kashiwa$getCounts(SRR = c("SRR037453", "SRR037457"))
head(count)


count <- kashiwa$getCounts(PMID = c(18978789, 20167110, 21029860))
head(count)
 


  • リードカウントのデータベース化について
      • 非変異型のサンプルをたくさん集めることで、リードの分布パラメーターを計算できるかもしれません
        • サンプル組織別とか
        • マッピングツール別とか
        • replicateなしのデータの解析の際に、利用できそう

DAY2

  • RDF化にする前のファイルを作成した[2]
    • 全50件のSRRファイルを特定した(ヒト・非変異型のSRR)
      • サンプルの組織は主に脳(その他にすい臓、血球なども含む)
      • SRR037452〜SRR037453のファイルに対して、リードカウントのデータを結びつけた
        • マッピングツールやオプション情報など

DAY1

解析前のデータや解析ツールのプロパティ

データベース化に利用するプロパティ

プロパティフォーマットURI
PubMed id1000000http://purl.obolibrary.org/obo/OBI_0001617
SRR番号SRR000000
サンプルの採取組織brainhttp://purl.obolibrary.org/obo/FMA_9637
プラットフォームHiSeq 2000http://bioontology.org/projects/ontologies/birnlex#birnlex_2408
生物種Homo sapienshttp://purl.obolibrary.org/obo/NCBITaxon_species
マッピングツールbowtie2 2.0.0http://edamontology.org/topic_0102
マッピングツールオプション-D 5 -R 1 -N 0 -L 22 -i S,0,2.50 -x <bt2-idx> {-1 <m1> -2 <m2> | -U <r>} -S [<hit>]URI
解析ツールHTSeq 0.5.0http://edamontology.org/operation_2498
解析ツールオプション-m union -a -t exon URI
Ensembl IDhttp://edamontology.org/data_2610
タグ(リード)カウントhttp://purl.obolibrary.org/obo/GO_0010467

解析後のデータのプロパティ

メインテーブルからリンクされる。 解析後のデータは行列型のデータとする。 遺伝子名はEnsembl IDに統一する。

Ensembl IDCount
ENSG0000014151010
ENSG0000014151113
ENSG000001415122

データ抽出

    • PubMedId.brain.txtにある59論文のabstractをダウンロード
    • SRR番号、PubMed ID、プラットフォームなどを記録
    • 19件調べた(うち、10件は欲しいデータがなかった)

TIPS(自由に付け加えてください)

  • ツール
GitHub BH12.12
SRA, DRAの統合検索ができるデータベース
SRAとPubMedの統合検索ができるデータベース
  • リファレンス

事前TODO(自由に付け加えてください)

  • SRAまたはDRAに登録されているデータのカテゴリ分けルールを調べる
  • カウントデータをRDF化する際のフォーマットを考える
  • TopHatとHTSeqのオプションのチューニング
    • 今回はBowtie2を利用してマッピングしたデータをサンプルに用いる
human brainに関して解析済みのカウントデータのSRRのIDをリストアップ
SRR.wild-type-sample-id.txt

対象とする体組織

実際には複数の組織の野生株のカウントデータを対象にしたいが, 本ハッカソン中はこれに着目ヒト・脳にしぼり取り扱う.
  • kusarinoko にてクエリを"wild brain"でhumanを検索. SRAのIDを持つPubMed中の論文は59件ヒット. resultのPMIDをリスト化した.
PubMedId.brain.txt

プロパティ

SRR番号
細胞が属する組織の名前http://purl.obolibrary.org/obo/FMA_9637
シーケンサーの種類http://bioontology.org/projects/ontologies/birnlex#birnlex_2408
生物の種名http://purl.obolibrary.org/obo/NCBITaxon_species
リードをリファレンスへマッピングするソフトウェアの名前http://edamontology.org/topic_0102
マッピング結果からカウントデータを計算するソフトウェアの名前 http://edamontology.org/operation_2498
タグカウントデータhttp://purl.obolibrary.org/obo/GO_0010467
Ensembl IDhttp://edamontology.org/data_2610

RDF投入前フォーマット

RDF投入前のフォーマット

idSRR番号サンプルの組織名シーケンサ種類種名マッピングツール解析ツールBodyParts3D id
1SRR00000brainHiSeq 2000Homo sapiensBowtie2HTSeqFMA_0000
2SRR00001brain5500 SOLiDHomo sapiensTopHatHTSeqFMA_0000


Ensembl ID発現量(タグカウントデータ)
ENSG0000014151020
ENSG000001415112

草案(自由に付け加えてください)

◯count.data DBの作成(孫)

  • ヒトとシロイヌナズナのシーケンサーデータを集める
    • シーケンサーデータをSRAまたはDRAから集める
    • そのデータに関連する論文を取り出す
    • 論文からデータに関するメタ情報(サンプルの組織や実験環境など)を抽出する
    • 野生株のデータだけをピックアップ
  • マッピングや発現量の計算など
    • TopHat
    • HTSeq
    • RSEM
  • RDF化
    • 計算されたカウントデータと論文から抽出したメタ情報の関連付けを行う
    • RDF化する

アイデア出し(自由に付け加えてください)

  • ゲノムアノテーション, op.ENcodeやテキストマイニングのグループとも協調する
kusarinoko
   |
   |
 PubMed id  -----> togows
 SRA id -----        |
            |       \|/
            |       注釈(細胞組織、シーケンサーの型など)
            |        | 
            |       \|/
            -----> RDF化
                    /|\
BodyParts3D ---------|
(FMA id)