BH14.14/MBGD

提供:TogoWiki

移動: 案内, 検索

BH14.14

目次

データの整備

MBGDの追加RDF

ref: MBGD update 2013

1. pre-calculated ortholog tables among various taxonomic groups

2. conserved synteny information

1. Taxon-specific オーソログテーブル

元データ:MBGD release 2014-02

  • superkingdomレベル:2 version
  • phylum(門)レベル:16 version
  • class(綱)レベル:21 version
  • order(目)レベル:58 version
  • family(科)レベル:79 version
  • genus(属)レベル:46 version
  • species(種)レベル:61 version
  • 計: 283 version

RDF化

  • Perlスクリプトでdclst形式(MBGD独自形式)のファイルを、RDFに変換
  • 結果 283 files (Turtle)
  • 計 437,452,463 triples (約4.4億トリプル)

2. シンテニー情報

比較的近縁の生物種セットに関しては、上記1.の情報に加えて、シンテニー情報が利用可能 (ref: algorithm)

  • family(科)レベル:79 version
  • genus(属)レベル:46 version
  • species(種)レベル:61 version
  • 計: 183 version

保存された並びを持つ一連のオーソログ(syntenic core)のデータモデル (参考:rdf:List RDF summit)

Syntenic core.png

RDF化

  • PerlスクリプトでMBGD独自形式ファイルを、RDFに変換
  • 結果 183 files (Turtle)
  • 計 669,682 triples (約77万トリプル)

Virtuosoへのロードと確認

時間の見積もり

  • 14.4 M triples / 分
  • 1億トリプル / 7分
  • Turtleファイルのトリプル数と、Virtuosoに入ったトリプル数をカウントして確認したので、もう少し時間がかかった


リソースURIにアクセスすると、裏でVirtuosoをたたいて、つながっているリソースを表示する


SPARQL Search インターフェース

公開版:http://mbgd.genome.ad.jp/sparql/


開発版:インターフェースの改良

  • テキストエリアの syntax highlighting(CodeMirror
  • 同一ページでの編集と結果の確認がやりやすいように修正した


Visualization

BH14.14/Visualization

Todo

  • Taxon-specific テーブル作成のパイプライン化
    • ファイル作成場所(更新用DBの場所)について要確認
  • Visualize
    • 座標の考慮
    • オーソログクラスターセットが似ているものだけにしぼることはできるか
    • あるいは、似ているものから並べる事はできるか
    • こういったアプリケーションがあれば、裏のデータをOrthOにあわせるべし、と言えるかもしれない
個人用ツール