SPARQLthon63/vg
提供:TogoWiki
目次 |
ゲノム・グラフ
ナポリ報告
SWAT4HCLS の出張にあわせて Erik Garrison 氏を訪問し、最新の開発状況について打ち合わせを行った。(片山)
- クロモソームをまたぐ translocation は、複数クロモソームを path として持つ vg を作っておき、vg mod -i や vg argument でアノテーションできるらしい
- パスの定義は GAM ファイルを書くことで行うことになりそう
- vg find でクロモソーム # の position # に該当するノードを検索、ノードとノードをつなぐパスを GAM に記載という感じ
- ハプロタイプについては phased/unphased な VCF ファイルから vg index -x で xg もしくは -G で gbwt ファイルを作ることで path としてアノテーションされる
- 参考ページ
- ただし build 版の docker https://quay.io/repository/vgteam/vg?tag=latest&tab=tags にはまだこの機能はない
- また GBWT の機能はまだ開発中で、phased と unphased が混ざってる VCF を作って食わせたところバグが判明(イマココ)
- 2018年3月に vg のチュートリアルがポルトガルで行われるらしい
可視化に必要なAPI
- 遺伝子やリピート領域のアノテーションを JSON で受け取って vg の可視化に使いたい
- SPARQList で TogoGenome のエンドポイントからアノテーションを取得すれば良さそう
- リピート (Repeat Masker などが出力するタイプのもの) については RefSeq にアノテーションがないっぽい → Ensembl にあるか調べる
とりあえず TogoGenome (GRCh38) から gene/mRNA/exon 情報を取得する API を作成した → http://biohackathon.org/rest/vg_gene_annotation
今後の課題
- GRCh37のRefSeqのアノテーションも取得できるようになっていてほしい
- 今後の解析はよいかもしれないが、既存の解析はGRCh37で行われているものが多く(cf. 1000人ゲノム)、その可視化をする際にはGRCh37のRefSeqが必要となると考えられる
- TogoGenome のサブセットとして GRCh37 版の RefSeq をインストールしたエンドポイントを準備中
- 将来的には TogoVar や Ensembl の API を利用するようにしていきたい
- 得られたJSON結果の後処理
- SPARQListで得られたjsonを、可視化で利用可能な形に整形する必要がある。javascriptで実装し、可能であればSPARQList内のMarkdownに統合する。
- 遺伝子名や各種アノテーション名を前方一致でオートフィルして、その領域をGRCh37/GRCh38で取得する
- 遺伝子名や各種アノテーション名を前方一致でオートフィルするAPIエンドポイントがあれば、その名前を確定できて、その名前をもとに領域を取得可能
GRCh37のRefSeqのRDF
エンドポイント(暫定): http://ep.dbcls.jp/sparql71tmp
グラフ名
グラフURI | トリプル数 | ディレクトリ |
---|---|---|
http://togogenome.org/graph/refseq/human/grch37 | 16407809 | /data/store/rdf/togogenome/refseq/grch37_human/refseq.ttl/9606/PRJNA168/ |
http://togogenome.org/graph/insdc | 14238 | /data/store/rdf/togogenome/ontology/insdc/20171125/nucleotide.ttl |
http://togogenome.org/graph/so | 43060 | /data/store/rdf/togogenome/ontology/so/20130618/so.owl |
http://togogenome.org/graph/faldo | 232 | /data/store/rdf/togogenome/ontology/faldo/20171125/faldo.ttl |
各クロモソームの RefSeq ID を取得
PREFIX insdc: <http://ddbj.nig.ac.jp/ontologies/nucleotide/> PREFIX dct: <http://purl.org/dc/elements/1.1/> PREFIX graph: <http://togogenome.org/graph/refseq/human/> SELECT ?id WHERE { GRAPH graph:grch37 { ?chr a insdc:Entry ; dct:identifier ?id . } } ORDER BY ?id
API をこれを使ったものに移植
http://biohackathon.org/rest/vg_gene_annotation_grch37
Ensembl RDF の SO type
grep SO_ release201707_fixed/homo_sapiens*ttl | grep rdf:type | perl -pe 's/.*rdf:type\s+obo:SO_/SO:/g' | sort | uniq -c | sort -rn
http://www.sequenceontology.org/browser/current_svn/term/SO:0002040 などでアノテーションを確認
1322526 SO:0000147 . # exon 104201 SO:0000234 . # mRNA 88926 SO:0001877 . # lnc_RNA 23527 SO:0001263 . # ncRNA_gene 23070 SO:0001217 . # protein_coding_gene 16259 SO:0000516 . # pseudogenic_transcript 16227 SO:0000336 . # pseudogene 2404 SO:0000655 . # ncRNA 2059 SO:0000274 . # snRNA 1890 SO:0000276 . # miRNA 1018 SO:0000275 . # snoRNA 571 SO:0000252 . # rRNA 388 SO:0000466 . # V_gene_segment 117 SO:0000470 . # J_gene_segment 69 SO:0000458 . # D_gene_segment 53 SO:0000013 . # scRNA 42 SO:0000478 . # C_gene_segment 22 SO:0000253 . # tRNA 1 SO:0002040 . # vaultRNA_primary_transcript
どうもリピートのアノテーションは Ensembl RDF にも無さそう。
よいヒトゲノムリピートのデータベースがあれば教えてください。 なければ UCSC から取得して RDF 化を検討するなど。
ゲノム・グラフ研究会
- ウェブサイト更新 https://genomegraph.github.io/website/
- Markdown に移行