SPARQLthon63/vg
提供:TogoWiki
(版間での差分)
(→Ensembl RDF の SO type) |
(→可視化) |
||
17行: | 17行: | ||
** SPARQList で TogoGenome のエンドポイントからアノテーションを取得すれば良さそう | ** SPARQList で TogoGenome のエンドポイントからアノテーションを取得すれば良さそう | ||
** リピート (Repeat Masker などが出力するタイプのもの) については RefSeq にアノテーションがないっぽい → Ensembl にあるか調べる | ** リピート (Repeat Masker などが出力するタイプのもの) については RefSeq にアノテーションがないっぽい → Ensembl にあるか調べる | ||
+ | |||
+ | ==== 今後の課題 ==== | ||
+ | |||
+ | * GRCh37のRefSeqのアノテーションも取得できるようになっていてほしい | ||
+ | ** 1000人ゲノムのデータセットはGRCh37に基づいているので、1000人ゲノムの可視化をする上では必要 | ||
+ | ** 今後の解析はよいかもしれないが、既存の解析はGRCh37で行われているものが多く、その可視化をする際にはGRCh37のRefSeqが必要となる | ||
+ | |||
+ | * 遺伝子名や各種アノテーション名を前方一致でオートフィルして、その領域をGRCh37/GRCh38で取得する | ||
+ | ** 遺伝子名や各種アノテーション名を前方一致でオートフィルするAPIエンドポイントがあれば、その名前を確定できて、その名前をもとに領域を取得可能 | ||
=== Ensembl RDF の SO type === | === Ensembl RDF の SO type === |
2017年12月15日 (金) 08:22時点における版
目次 |
ゲノム・グラフ
- ナポリ報告
- クロモソームをまたぐ translocation は、複数クロモソームを path として持つ vg を作っておき、vg mod -i や vg argument でアノテーションできるらしい
- パスの定義は GAM ファイルを書くことで行うことになりそう
- vg find でクロモソーム # の position # に該当するノードを検索、ノードとノードをつなぐパスを GAM に記載という感じ
- ハプロタイプについては phased/unphased な VCF ファイルから vg index -x で xg もしくは -G で gbwt ファイルを作ることで path としてアノテーションされる
- 参考ページ
- ただし build 版の docker https://quay.io/repository/vgteam/vg?tag=latest&tab=tags にはまだこの機能はない
- また GBWT の機能はまだ開発中で、phased と unphased が混ざってる VCF を作って食わせたところバグが判明(イマココ)
- クロモソームをまたぐ translocation は、複数クロモソームを path として持つ vg を作っておき、vg mod -i や vg argument でアノテーションできるらしい
可視化
- 遺伝子やリピート領域のアノテーションを JSON で受け取って vg の可視化に使いたい
- SPARQList で TogoGenome のエンドポイントからアノテーションを取得すれば良さそう
- リピート (Repeat Masker などが出力するタイプのもの) については RefSeq にアノテーションがないっぽい → Ensembl にあるか調べる
今後の課題
- GRCh37のRefSeqのアノテーションも取得できるようになっていてほしい
- 1000人ゲノムのデータセットはGRCh37に基づいているので、1000人ゲノムの可視化をする上では必要
- 今後の解析はよいかもしれないが、既存の解析はGRCh37で行われているものが多く、その可視化をする際にはGRCh37のRefSeqが必要となる
- 遺伝子名や各種アノテーション名を前方一致でオートフィルして、その領域をGRCh37/GRCh38で取得する
- 遺伝子名や各種アノテーション名を前方一致でオートフィルするAPIエンドポイントがあれば、その名前を確定できて、その名前をもとに領域を取得可能
Ensembl RDF の SO type
grep SO_ release201707_fixed/homo_sapiens*ttl | grep rdf:type | perl -pe 's/.*rdf:type\s+obo:SO_/SO:/g' | sort | uniq -c | sort -rn
http://www.sequenceontology.org/browser/current_svn/term/SO:0002040 などでアノテーションを確認
1322526 SO:0000147 . # exon 104201 SO:0000234 . # mRNA 88926 SO:0001877 . # lnc_RNA 23527 SO:0001263 . # ncRNA_gene 23070 SO:0001217 . # protein_coding_gene 16259 SO:0000516 . # pseudogenic_transcript 16227 SO:0000336 . # pseudogene 2404 SO:0000655 . # ncRNA 2059 SO:0000274 . # snRNA 1890 SO:0000276 . # miRNA 1018 SO:0000275 . # snoRNA 571 SO:0000252 . # rRNA 388 SO:0000466 . # V_gene_segment 117 SO:0000470 . # J_gene_segment 69 SO:0000458 . # D_gene_segment 53 SO:0000013 . # scRNA 42 SO:0000478 . # C_gene_segment 22 SO:0000253 . # tRNA 1 SO:0002040 . # vaultRNA_primary_transcript
どうもリピートのアノテーションは Ensembl RDF にも無さそう。