BH12.12/SPARQLthon15/MBGD
提供:TogoWiki
目次 |
サーバー整備
- 新しいVirtuoso7を、SSDにインストールした
- 検索速い
- 結果が得られなかったクエリの結果が返るようになった
GOアノテーションのRDF化
- クラスターに対してGO IDをアサインメントしたものをRDF化
- MBGDの遺伝子に対してGO IDを付加したものをRDF化
- GOの階層構造は、UniProt からダウンロードした、go.rdf をロードして利用
検索例
- http://mbgd.genome.ad.jp/rdf/dataset/2013-02_default/cluster/113932
- member数 849
- GO term数 105
- eggNOG とのオーバーラップを検索
- 共通メンバーのカウント -> バグ?
- オーバーラップしているメンバーのみをフィルター
- オーバーラップ長を計算できるか?
- GO - ortholog clusters - phylogenetic profiles
- 1つのGOから出発しても、複数のプロファイルが得られる
- プロファイルの一致をSPARQLで書けるか:文字列パターンに対するgrep?
Todo
- phylogenetic profile を Familyレベルで集計する
- カウント -> 割合 -> まとめてベクトル
- phylogenetic profile
- GO profile
- GO階層を利用した検索
ややむずかしい?
- 系統プロファイル間のマッチング
- 文字列マッチ?
- 階層型オーソログクラスターのRDF化
- 厳密なオーソログ検索
DB連携
- 236/GR16 はテスト用に使ってよい
- クラスタに対するアノテーションを付加して、gitに戻すようにする
Memo
- Virtuoso
- Virtuosoのメモリ使用量の設定が少ないと、ロードのときに困るかも
- 特に、SSDでないときには、止まってしまうかもしれない
- データを大量にロードした後でも、クエリの処理に問題はなさそうな感じ
- ロードに先立って、チェックポイントを短くする必要はないかもしれない
- Virtuosoのメモリ使用量の設定が少ないと、ロードのときに困るかも
- UniProtで使われているN4形式が見やすい
- NIBBに新しいまとめサイト(MediaWiki)