VirtSBM
提供:TogoWiki
SBM Extractor for Local Virtuoso
背景
- 巨大なデータはhttp経由だとクロールがよく失敗する,あるいは時間がかかりすぎる
- ローカルなマシンにダウンロードしてVirtuosoに入れてもSPARQL経由だとやはりよく失敗する
- 周囲に Virtuoso 使ってサービスしてる人多い
- Virtuoso の JDBC (Java版ODBC) 叩く抽出ツールがあると良さそう
SPARQLthon61 での作業
- JDBC経由のアクセスを可能にできるように機能追加する
- https://github.com/sparqlbuilder/metadata を https://github.com/acopom/metadata にフォーク
- クローラが情報取得の際,SPARQL クエリ→Jena→HTTP→SPARQL エンドポイント→Virtuoso となってる流れに,SPARQLクエリ→Jena→JDBC→Virtuoso のパスも追加し,引数 -virt で後者を通るよう切り替えるようにした
- 手元のマシンで新機能を試したら(当たり前だけど)SPARQLエンドポイント通すよりかなり速くなった
- どのくらい差が出るかtimeで簡易比較
- SPARQLエンドポイント経由: 53m31.636s, JDBC経由: 1m7.376s
- どのくらい差が出るかtimeで簡易比較