BH16.12/Epigenome
提供:TogoWiki
「Public NGS 関連のデータを繋ぐなどします」ということでしたが。。
やることリスト (https://docs.google.com/document/d/1NNYYAzyEZr8zevyN6-4qTNhqxssoGHYQqHiAJuJ3M9o/edit) から抜粋
- つなぐ対象
- SRA のメタデータ
- Quanto
- ChIP-Atlas
- RefEx
- コラボしたい相手
- BioSample
- ゲノム多型情報
- 表現型の情報
やったこと
- SRA のメタデータ
- dogrun 大石さんが XML ベースのメタデータのSolr/MongoへのインデックスとAPI経由でのアクセスのためのシステムを構築してくださいました
- これを元に DBCLS SRA を改築するタスクもあったが完了せず。。
- これを元にトリプルを生成したかったがそれも完了せず。。
- SRAには大量にデータが入っているので、たとえば「メタゲノムだけ」「ヒトだけ」など、サブセットをSolr/Mongoから取り出してトリプルに変換、別のものとつなぐ、などしたかった。
- Quanto
- 論文書いたぞい
- ChIP-Atlas
- いろいろとデータがあり、RDFモデルをつくりたいですが、まずは語彙を統一せねばという具合です。
- Zooma を使って Cell line, Antigen name をいい感じに手を抜いてmappingできないかなーとやってみました
- https://gist.github.com/inutano/a89f72700b058933e5590979bae22b29
- Cell ontology, Cell line ontology の違い is 何
- 入力にした cell line name は ATCC の名称を元に人手でアノテーションしたものです
- 以外とmapされない、1/3くらいは no map
- 結果を眺めるには細胞株詳しいマンの手助けが必要そう…
- https://gist.github.com/inutano/a89f72700b058933e5590979bae22b29
- RefEx
- 小野さんが素晴らしい進捗を生み出してくれているはず
- コラボ
- ちゃんとできませんでした。。続きはSPARQLthonで。
- YCAM見学
- とてもエキサイティングでした、Blog書きます
やりたいこと
- 基本はデータ解析に役立つようなセットを整備したい
- *-Seq をやって、遺伝子リストとか、領域のリストが出たときに、そこに対して過去の実験を並べてやるとか、アノテーションをつけるとか、エンリッチメント解析するとか、そういうことをやりたい
- もっとおもしろいことがやりたい
- 研究者は自分の興味のあることしかやらない
- レポジトリに偏りがでる
- ChIP-Seq だと血球系の細胞が多いとか、不人気 TF があったりとか…
- レポジトリに偏りがでる
- レポジトリが自ら偏りを是正する
- 「この実験をやっている人はこの実験もやっています」
- 「この細胞株でもっとデータを取ればこの病気のこの変異に対するアプローチができるかも」
- レポジトリに入ってる実験のメタデータ、そこから分かった知識などの分布を調べて、空いているところを埋める実験をデザインする
- ブルーオーシャン探査機
- 自動生成してロボットにやらせる
- 研究者は自分の興味のあることしかやらない