SPARQLthon46/blazegraph

提供:TogoWiki

移動: 案内, 検索

目次

データロード速度検証

TogoGenomeのデータを使って速度計測を行っている

環境

サーバ: ep1
javaの使用メモリ上限: 20G(-Xmx20g)

対象データ

TogoGenomeが対象とするRefSeq v74のRDFデータ(重複なし約18億、重複含み約33億)

結果

  • Virtuosoとの比較
Virtuoso7.1でのロード時間: 約11h
blazegraphでのロード時間: 約50h (色々設定変えた中で現状の最速時間)
  • データロードが増えるごとに、徐々にロード速度が落ちていく
10億:   8h
20億: 21h
30億: 43h
33億: 50h

傾向

サーバの負荷状況

サーバ上で他のサービスが動いていると、極端にロードスピードが落ちることがある。同一データをロードしても60h〜217hと大きな開きがある(CPU、メモリには余裕があるためI/O?)

トリプルモードとクアッドモード

グラフを使用しないトリプルモードにすれば、ロード時間は31h。クアッドモードでのロードスピードとかなり開きがあるが、TogoGenomeではグラフ管理をしたいためクワッドモードしか選択肢がない

テキストインデックス

テキストインデックスを除外するとロード速度はあがり、36h。テキストインデックスを後から追加する時間は未計測

バッファサイズ

Bulk Data Loadのページに従いBufferサイズを100倍程に設定するも、さほど効果は見られなかった。
デフォルトバッファサイズ: 60h => バッファサイズ100倍: 50h

JavaのGC

Javaのパラメータを変えれば速度改良がみられるという情報があり、現在調査中。 PerformanceOptimization

設定ファイル

/mw/SPARQLthon46/blazegraph」より作成