SPARQLthon63/vg

提供:TogoWiki

2017年12月14日 (木) 08:40時点におけるKtym (トーク | 投稿記録)による版
移動: 案内, 検索

ゲノム・グラフ

  • ナポリ報告
    • クロモソームをまたぐ translocation は、複数クロモソームを path として持つ vg を作っておき、vg mod -i や vg argument でアノテーションできるらしい
      • パスの定義は GAM ファイルを書くことで行うことになりそう
      • vg find でクロモソーム # の position # に該当するノードを検索、ノードとノードをつなぐパスを GAM に記載という感じ
    • ハプロタイプについては phased/unphased な VCF ファイルから vg index -x で xg もしくは -G で gbwt ファイルを作ることで path としてアノテーションされる

可視化

  • 遺伝子やリピート領域のアノテーションを JSON で受け取って vg の可視化に使いたい
    • SPARQList で TogoGenome のエンドポイントからアノテーションを取得すれば良さそう
    • リピート (Repeat Masker などが出力するタイプのもの) については RefSeq にアノテーションがないっぽい → Ensembl にあるか調べる

Ensembl RDF の SO type

grep SO_ release201707_fixed/homo_sapiens*ttl | grep rdf:type | perl -pe 's/.*rdf:type\s+obo:SO_/SO:/g' | sort | uniq -c | sort -rn

1322526 SO:0000147 . # exon
 104201 SO:0000234 . # mRNA
  88926 SO:0001877 . # lnc_RNA
  23527 SO:0001263 . # ncRNA_gene
  23070 SO:0001217 . # protein_coding_gene
  16259 SO:0000516 . # pseudogenic_transcript
  16227 SO:0000336 . # pseudogene
   2404 SO:0000655 . # ncRNA
   2059 SO:0000274 . # snRNA
   1890 SO:0000276 . # miRNA
   1018 SO:0000275 . # snoRNA
    571 SO:0000252 . # rRNA
    388 SO:0000466 . # V_gene_segment
    117 SO:0000470 . # J_gene_segment
     69 SO:0000458 . # D_gene_segment
     53 SO:0000013 . # scRNA
     42 SO:0000478 . # C_gene_segment
     22 SO:0000253 . # tRNA
      1 SO:0002040 . # vaultRNA_primary_transcript

どうもリピートのアノテーションは Ensembl RDF にも無さそう。

個人用ツール