SPARQLthon63/vg

提供:TogoWiki

移動: 案内, 検索

目次

ゲノム・グラフ

ナポリ報告

SWAT4HCLS の出張にあわせて Erik Garrison 氏を訪問し、最新の開発状況について打ち合わせを行った。(片山)

  • クロモソームをまたぐ translocation は、複数クロモソームを path として持つ vg を作っておき、vg mod -i や vg argument でアノテーションできるらしい
    • パスの定義は GAM ファイルを書くことで行うことになりそう
    • vg find でクロモソーム # の position # に該当するノードを検索、ノードとノードをつなぐパスを GAM に記載という感じ
  • ハプロタイプについては phased/unphased な VCF ファイルから vg index -x で xg もしくは -G で gbwt ファイルを作ることで path としてアノテーションされる
  • 2018年3月に vg のチュートリアルがポルトガルで行われるらしい

可視化に必要なAPI

  • 遺伝子やリピート領域のアノテーションを JSON で受け取って vg の可視化に使いたい
    • SPARQList で TogoGenome のエンドポイントからアノテーションを取得すれば良さそう
    • リピート (Repeat Masker などが出力するタイプのもの) については RefSeq にアノテーションがないっぽい → Ensembl にあるか調べる

とりあえず TogoGenome (GRCh38) から gene/mRNA/exon 情報を取得する API を作成した → http://biohackathon.org/rest/vg_gene_annotation


今後の課題

  • GRCh37のRefSeqのアノテーションも取得できるようになっていてほしい
    • 今後の解析はよいかもしれないが、既存の解析はGRCh37で行われているものが多く(cf. 1000人ゲノム)、その可視化をする際にはGRCh37のRefSeqが必要となると考えられる
    • TogoGenome のサブセットとして GRCh37 版の RefSeq をインストールしたエンドポイントを準備中
      • 将来的には TogoVar や Ensembl の API を利用するようにしていきたい
  • 得られたJSON結果の後処理
    • SPARQListで得られたjsonを、可視化で利用可能な形に整形する必要がある。javascriptで実装し、可能であればSPARQList内のMarkdownに統合する。
  • 遺伝子名や各種アノテーション名を前方一致でオートフィルして、その領域をGRCh37/GRCh38で取得する
    • 遺伝子名や各種アノテーション名を前方一致でオートフィルするAPIエンドポイントがあれば、その名前を確定できて、その名前をもとに領域を取得可能

GRCh37のRefSeqのRDF

エンドポイント(暫定): http://ep.dbcls.jp/sparql71tmp
グラフ名

グラフURIトリプル数ディレクトリ
http://togogenome.org/graph/refseq/human/grch3716407809/data/store/rdf/togogenome/refseq/grch37_human/refseq.ttl/9606/PRJNA168/
http://togogenome.org/graph/insdc14238/data/store/rdf/togogenome/ontology/insdc/20171125/nucleotide.ttl
http://togogenome.org/graph/so43060/data/store/rdf/togogenome/ontology/so/20130618/so.owl
http://togogenome.org/graph/faldo232/data/store/rdf/togogenome/ontology/faldo/20171125/faldo.ttl

各クロモソームの RefSeq ID を取得

PREFIX insdc: <http://ddbj.nig.ac.jp/ontologies/nucleotide/>
PREFIX dct: <http://purl.org/dc/elements/1.1/>
PREFIX graph: <http://togogenome.org/graph/refseq/human/>

SELECT ?id
WHERE {
  GRAPH graph:grch37 {
    ?chr a insdc:Entry ;
       dct:identifier ?id .
  }
}
ORDER BY ?id

API をこれを使ったものに移植

http://biohackathon.org/rest/vg_gene_annotation_grch37

Ensembl RDF の SO type

grep SO_ release201707_fixed/homo_sapiens*ttl | grep rdf:type | perl -pe 's/.*rdf:type\s+obo:SO_/SO:/g' | sort | uniq -c | sort -rn

http://www.sequenceontology.org/browser/current_svn/term/SO:0002040 などでアノテーションを確認

1322526 SO:0000147 . # exon
 104201 SO:0000234 . # mRNA
  88926 SO:0001877 . # lnc_RNA
  23527 SO:0001263 . # ncRNA_gene
  23070 SO:0001217 . # protein_coding_gene
  16259 SO:0000516 . # pseudogenic_transcript
  16227 SO:0000336 . # pseudogene
   2404 SO:0000655 . # ncRNA
   2059 SO:0000274 . # snRNA
   1890 SO:0000276 . # miRNA
   1018 SO:0000275 . # snoRNA
    571 SO:0000252 . # rRNA
    388 SO:0000466 . # V_gene_segment
    117 SO:0000470 . # J_gene_segment
     69 SO:0000458 . # D_gene_segment
     53 SO:0000013 . # scRNA
     42 SO:0000478 . # C_gene_segment
     22 SO:0000253 . # tRNA
      1 SO:0002040 . # vaultRNA_primary_transcript

どうもリピートのアノテーションは Ensembl RDF にも無さそう。

よいヒトゲノムリピートのデータベースがあれば教えてください。 なければ UCSC から取得して RDF 化を検討するなど。

ゲノム・グラフ研究会

/mw/SPARQLthon63/vg」より作成