SPARQLthon63/vg

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(GRCh37のRefSeqのRDF)
 
(間の8版分が非表示)
1行: 1行:
== ゲノム・グラフ ==
== ゲノム・グラフ ==
-
* ナポリ報告
+
=== ナポリ報告 ===
-
** クロモソームをまたぐ translocation は、複数クロモソームを path として持つ vg を作っておき、vg mod -i や vg argument でアノテーションできるらしい
+
 
-
*** パスの定義は GAM ファイルを書くことで行うことになりそう
+
SWAT4HCLS の出張にあわせて Erik Garrison 氏を訪問し、最新の開発状況について打ち合わせを行った。(片山)
-
*** vg find でクロモソーム # の position # に該当するノードを検索、ノードとノードをつなぐパスを GAM に記載という感じ
+
 
-
** ハプロタイプについては phased/unphased な VCF ファイルから vg index -x で xg もしくは -G で gbwt ファイルを作ることで path としてアノテーションされる
+
* クロモソームをまたぐ translocation は、複数クロモソームを path として持つ vg を作っておき、vg mod -i や vg argument でアノテーションできるらしい
-
*** 参考ページ
+
** パスの定義は GAM ファイルを書くことで行うことになりそう
-
**** https://github.com/jltsiren/gbwt/wiki/Query-Interface
+
** vg find でクロモソーム # の position # に該当するノードを検索、ノードとノードをつなぐパスを GAM に記載という感じ
-
**** https://github.com/jltsiren/gbwt/wiki/Construction-Benchmarks
+
* ハプロタイプについては phased/unphased な VCF ファイルから vg index -x で xg もしくは -G で gbwt ファイルを作ることで path としてアノテーションされる
-
*** ただし build 版の docker https://quay.io/repository/vgteam/vg?tag=latest&tab=tags にはまだこの機能はない
+
** 参考ページ
-
**** また GBWT の機能はまだ開発中で、phased と unphased が混ざってる VCF を作って食わせたところバグが判明(イマココ)
+
*** https://github.com/jltsiren/gbwt/wiki/Query-Interface
 +
*** https://github.com/jltsiren/gbwt/wiki/Construction-Benchmarks
 +
** ただし build 版の docker https://quay.io/repository/vgteam/vg?tag=latest&tab=tags にはまだこの機能はない
 +
*** また GBWT の機能はまだ開発中で、phased と unphased が混ざってる VCF を作って食わせたところバグが判明(イマココ)
 +
* 2018年3月に vg のチュートリアルがポルトガルで行われるらしい
 +
** https://genomegraph.github.io/website/portugal
=== 可視化に必要なAPI ===
=== 可視化に必要なAPI ===
33行: 38行:
* 遺伝子名や各種アノテーション名を前方一致でオートフィルして、その領域をGRCh37/GRCh38で取得する
* 遺伝子名や各種アノテーション名を前方一致でオートフィルして、その領域をGRCh37/GRCh38で取得する
** 遺伝子名や各種アノテーション名を前方一致でオートフィルするAPIエンドポイントがあれば、その名前を確定できて、その名前をもとに領域を取得可能
** 遺伝子名や各種アノテーション名を前方一致でオートフィルするAPIエンドポイントがあれば、その名前を確定できて、その名前をもとに領域を取得可能
 +
 +
====  GRCh37のRefSeqのRDF ====
 +
エンドポイント(暫定): http://ep.dbcls.jp/sparql71tmp <br/>
 +
グラフ名
 +
{| class="wikitable"
 +
!グラフURI!!トリプル数!!ディレクトリ
 +
|-
 +
|http://togogenome.org/graph/refseq/human/grch37||16407809||/data/store/rdf/togogenome/refseq/grch37_human/refseq.ttl/9606/PRJNA168/
 +
|-
 +
|http://togogenome.org/graph/insdc||14238||/data/store/rdf/togogenome/ontology/insdc/20171125/nucleotide.ttl
 +
|-
 +
|http://togogenome.org/graph/so||43060||/data/store/rdf/togogenome/ontology/so/20130618/so.owl
 +
|-
 +
|http://togogenome.org/graph/faldo||232||/data/store/rdf/togogenome/ontology/faldo/20171125/faldo.ttl
 +
|}
 +
 +
各クロモソームの RefSeq ID を取得
 +
 +
<pre>
 +
PREFIX insdc: <http://ddbj.nig.ac.jp/ontologies/nucleotide/>
 +
PREFIX dct: <http://purl.org/dc/elements/1.1/>
 +
PREFIX graph: <http://togogenome.org/graph/refseq/human/>
 +
 +
SELECT ?id
 +
WHERE {
 +
  GRAPH graph:grch37 {
 +
    ?chr a insdc:Entry ;
 +
      dct:identifier ?id .
 +
  }
 +
}
 +
ORDER BY ?id
 +
</pre>
 +
 +
API をこれを使ったものに移植
 +
 +
http://biohackathon.org/rest/vg_gene_annotation_grch37
=== Ensembl RDF の SO type ===
=== Ensembl RDF の SO type ===
70行: 111行:
* ウェブサイト更新 https://genomegraph.github.io/website/
* ウェブサイト更新 https://genomegraph.github.io/website/
-
  * Markdown に移行
+
** Markdown に移行

2017年12月16日 (土) 10:58時点における最新版

目次

ゲノム・グラフ

ナポリ報告

SWAT4HCLS の出張にあわせて Erik Garrison 氏を訪問し、最新の開発状況について打ち合わせを行った。(片山)

  • クロモソームをまたぐ translocation は、複数クロモソームを path として持つ vg を作っておき、vg mod -i や vg argument でアノテーションできるらしい
    • パスの定義は GAM ファイルを書くことで行うことになりそう
    • vg find でクロモソーム # の position # に該当するノードを検索、ノードとノードをつなぐパスを GAM に記載という感じ
  • ハプロタイプについては phased/unphased な VCF ファイルから vg index -x で xg もしくは -G で gbwt ファイルを作ることで path としてアノテーションされる
  • 2018年3月に vg のチュートリアルがポルトガルで行われるらしい

可視化に必要なAPI

  • 遺伝子やリピート領域のアノテーションを JSON で受け取って vg の可視化に使いたい
    • SPARQList で TogoGenome のエンドポイントからアノテーションを取得すれば良さそう
    • リピート (Repeat Masker などが出力するタイプのもの) については RefSeq にアノテーションがないっぽい → Ensembl にあるか調べる

とりあえず TogoGenome (GRCh38) から gene/mRNA/exon 情報を取得する API を作成した → http://biohackathon.org/rest/vg_gene_annotation


今後の課題

  • GRCh37のRefSeqのアノテーションも取得できるようになっていてほしい
    • 今後の解析はよいかもしれないが、既存の解析はGRCh37で行われているものが多く(cf. 1000人ゲノム)、その可視化をする際にはGRCh37のRefSeqが必要となると考えられる
    • TogoGenome のサブセットとして GRCh37 版の RefSeq をインストールしたエンドポイントを準備中
      • 将来的には TogoVar や Ensembl の API を利用するようにしていきたい
  • 得られたJSON結果の後処理
    • SPARQListで得られたjsonを、可視化で利用可能な形に整形する必要がある。javascriptで実装し、可能であればSPARQList内のMarkdownに統合する。
  • 遺伝子名や各種アノテーション名を前方一致でオートフィルして、その領域をGRCh37/GRCh38で取得する
    • 遺伝子名や各種アノテーション名を前方一致でオートフィルするAPIエンドポイントがあれば、その名前を確定できて、その名前をもとに領域を取得可能

GRCh37のRefSeqのRDF

エンドポイント(暫定): http://ep.dbcls.jp/sparql71tmp
グラフ名

グラフURIトリプル数ディレクトリ
http://togogenome.org/graph/refseq/human/grch3716407809/data/store/rdf/togogenome/refseq/grch37_human/refseq.ttl/9606/PRJNA168/
http://togogenome.org/graph/insdc14238/data/store/rdf/togogenome/ontology/insdc/20171125/nucleotide.ttl
http://togogenome.org/graph/so43060/data/store/rdf/togogenome/ontology/so/20130618/so.owl
http://togogenome.org/graph/faldo232/data/store/rdf/togogenome/ontology/faldo/20171125/faldo.ttl

各クロモソームの RefSeq ID を取得

PREFIX insdc: <http://ddbj.nig.ac.jp/ontologies/nucleotide/>
PREFIX dct: <http://purl.org/dc/elements/1.1/>
PREFIX graph: <http://togogenome.org/graph/refseq/human/>

SELECT ?id
WHERE {
  GRAPH graph:grch37 {
    ?chr a insdc:Entry ;
       dct:identifier ?id .
  }
}
ORDER BY ?id

API をこれを使ったものに移植

http://biohackathon.org/rest/vg_gene_annotation_grch37

Ensembl RDF の SO type

grep SO_ release201707_fixed/homo_sapiens*ttl | grep rdf:type | perl -pe 's/.*rdf:type\s+obo:SO_/SO:/g' | sort | uniq -c | sort -rn

http://www.sequenceontology.org/browser/current_svn/term/SO:0002040 などでアノテーションを確認

1322526 SO:0000147 . # exon
 104201 SO:0000234 . # mRNA
  88926 SO:0001877 . # lnc_RNA
  23527 SO:0001263 . # ncRNA_gene
  23070 SO:0001217 . # protein_coding_gene
  16259 SO:0000516 . # pseudogenic_transcript
  16227 SO:0000336 . # pseudogene
   2404 SO:0000655 . # ncRNA
   2059 SO:0000274 . # snRNA
   1890 SO:0000276 . # miRNA
   1018 SO:0000275 . # snoRNA
    571 SO:0000252 . # rRNA
    388 SO:0000466 . # V_gene_segment
    117 SO:0000470 . # J_gene_segment
     69 SO:0000458 . # D_gene_segment
     53 SO:0000013 . # scRNA
     42 SO:0000478 . # C_gene_segment
     22 SO:0000253 . # tRNA
      1 SO:0002040 . # vaultRNA_primary_transcript

どうもリピートのアノテーションは Ensembl RDF にも無さそう。

よいヒトゲノムリピートのデータベースがあれば教えてください。 なければ UCSC から取得して RDF 化を検討するなど。

ゲノム・グラフ研究会

個人用ツール