SPARQLthon46/blazegraph
提供:TogoWiki
目次 |
データロード速度検証
TogoGenomeのデータを使って速度計測を行っている
環境
サーバ: ep1
javaの使用メモリ上限: 20G(-Xmx20g)
対象データ
TogoGenomeが対象とするRefSeq v74のRDFデータ(重複なし約18億、重複含み約33億)
結果
- Virtuosoとの比較
Virtuoso7.1でのロード時間: 約11h blazegraphでのロード時間: 約50h (色々設定変えた中で現状の最速時間)
- データロードが増えるごとに、徐々にロード速度が落ちていく
10億: 8h 20億: 21h 30億: 43h 33億: 50h
傾向
サーバの負荷状況
サーバ上で他のサービスが動いていると、極端にロードスピードが落ちることがある。同一データをロードしても60h〜217hと大きな開きがある(CPU、メモリには余裕があるためI/O?)
トリプルモードとクアッドモード
グラフを使用しないトリプルモードにすれば、ロード時間は31h。クアッドモードでのロードスピードとかなり開きがあるが、TogoGenomeではグラフ管理をしたいためクワッドモードしか選択肢がない
テキストインデックス
テキストインデックスを除外するとロード速度はあがり、36h。テキストインデックスを後から追加する時間は未計測
バッファサイズ
Bulk Data Loadのページに従いBufferサイズを100倍程に設定するも、さほど効果は見られなかった。
デフォルトバッファサイズ: 60h => バッファサイズ100倍: 50h
JavaのGC
Javaのパラメータを変えれば速度改良がみられるという情報があり、現在調査中。 PerformanceOptimization