VirtSBM

提供:TogoWiki

2017年10月24日 (火) 08:23時点におけるAtsuko (トーク | 投稿記録)による版
移動: 案内, 検索

SBM Crawler for Local Virtuoso

背景

  • 巨大なデータはhttp経由だとクロールがよく失敗する,あるいは時間がかかりすぎる
  • ローカルなマシンにダウンロードしてVirtuosoに入れてもSPARQL経由だとやはりよく失敗する
  • 周囲に Virtuoso 使ってサービスしてる人多い
  • Virtuoso の JDBC (Java版ODBC) 叩くクローラがあると良さそう

SPARQLthon 61 での作業

  • JDBC経由のクロールを可能にできるように機能追加する
    • https://github.com/sparqlbuilder/metadatahttps://github.com/acopom/metadata にフォーク
    • クローラが情報取得の際,SPARQL クエリ→Jena→HTTP→SPARQL エンドポイント→Virtuoso となってる流れに,SPARQLクエリ→Jena→JDBC→Virtuoso のパスも追加し,引数 -virt で後者を通るよう切り替えるようにした
    • 手元のマシンで試したら(当たり前だけど)SPARQLエンドポイント通すよりかなり速くなった
    • どのくらい差が出るかの比較は今後の課題...
個人用ツール