BH14.14/MBGD
提供:TogoWiki
(版間での差分)
(→1. Taxon-specific オーソログ クラスタリング) |
(→Todo) |
||
72行: | 72行: | ||
* Visualize | * Visualize | ||
- | |||
** 座標の考慮 | ** 座標の考慮 | ||
- | ** | + | ** オーソログクラスターセットが似ているものだけにしぼることはできるか |
+ | ** あるいは、似ているものから並べる事はできるか | ||
+ | ** こういったアプリケーションがあれば、裏のデータをOrthOにあわせるべし、と言えるかもしれない |
2015年2月12日 (木) 04:00時点における最新版
目次 |
データの整備
MBGDの追加RDF
ref: MBGD update 2013
1. pre-calculated ortholog tables among various taxonomic groups
2. conserved synteny information
1. Taxon-specific オーソログテーブル
元データ:MBGD release 2014-02
- superkingdomレベル:2 version
- phylum(門)レベル:16 version
- class(綱)レベル:21 version
- order(目)レベル:58 version
- family(科)レベル:79 version
- genus(属)レベル:46 version
- species(種)レベル:61 version
- 計: 283 version
RDF化
- Perlスクリプトでdclst形式(MBGD独自形式)のファイルを、RDFに変換
- 結果 283 files (Turtle)
- 計 437,452,463 triples (約4.4億トリプル)
2. シンテニー情報
比較的近縁の生物種セットに関しては、上記1.の情報に加えて、シンテニー情報が利用可能 (ref: algorithm)
- family(科)レベル:79 version
- genus(属)レベル:46 version
- species(種)レベル:61 version
- 計: 183 version
保存された並びを持つ一連のオーソログ(syntenic core)のデータモデル (参考:rdf:List RDF summit)
RDF化
- PerlスクリプトでMBGD独自形式ファイルを、RDFに変換
- 結果 183 files (Turtle)
- 計 669,682 triples (約77万トリプル)
Virtuosoへのロードと確認
時間の見積もり
- 14.4 M triples / 分
- 1億トリプル / 7分
- Turtleファイルのトリプル数と、Virtuosoに入ったトリプル数をカウントして確認したので、もう少し時間がかかった
リソースURIにアクセスすると、裏でVirtuosoをたたいて、つながっているリソースを表示する
- http://mbgd.genome.ad.jp/rdf/resource/2014-02_tax9/cluster/162
- http://mbgd.genome.ad.jp/rdf/resource/2014-02_tax2267/cluster/2489
SPARQL Search インターフェース
公開版:http://mbgd.genome.ad.jp/sparql/
開発版:インターフェースの改良
- テキストエリアの syntax highlighting(CodeMirror )
- 同一ページでの編集と結果の確認がやりやすいように修正した
Visualization
Todo
- Taxon-specific テーブル作成のパイプライン化
- ファイル作成場所(更新用DBの場所)について要確認
- Visualize
- 座標の考慮
- オーソログクラスターセットが似ているものだけにしぼることはできるか
- あるいは、似ているものから並べる事はできるか
- こういったアプリケーションがあれば、裏のデータをOrthOにあわせるべし、と言えるかもしれない