VirtSBM

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
 
(間の1版分が非表示)
1行: 1行:
-
== SBM Crawler for Local Virtuoso ==
+
== SBM Extractor for Local Virtuoso ==
=== 背景 ===
=== 背景 ===
5行: 5行:
* ローカルなマシンにダウンロードしてVirtuosoに入れてもSPARQL経由だとやはりよく失敗する
* ローカルなマシンにダウンロードしてVirtuosoに入れてもSPARQL経由だとやはりよく失敗する
* 周囲に Virtuoso 使ってサービスしてる人多い
* 周囲に Virtuoso 使ってサービスしてる人多い
-
* Virtuoso の JDBC (Java版ODBC) 叩くクローラがあると良さそう
+
* Virtuoso の JDBC (Java版ODBC) 叩く抽出ツールがあると良さそう
=== [[SPARQLthon61]] での作業===
=== [[SPARQLthon61]] での作業===
-
* JDBC経由のクロールを可能にできるように機能追加する
+
* JDBC経由のアクセスを可能にできるように機能追加する
** https://github.com/sparqlbuilder/metadata を https://github.com/acopom/metadata にフォーク
** https://github.com/sparqlbuilder/metadata を https://github.com/acopom/metadata にフォーク
** クローラが情報取得の際,SPARQL クエリ→Jena→HTTP→SPARQL エンドポイント→Virtuoso となってる流れに,SPARQLクエリ→Jena→JDBC→Virtuoso のパスも追加し,引数 -virt で後者を通るよう切り替えるようにした
** クローラが情報取得の際,SPARQL クエリ→Jena→HTTP→SPARQL エンドポイント→Virtuoso となってる流れに,SPARQLクエリ→Jena→JDBC→Virtuoso のパスも追加し,引数 -virt で後者を通るよう切り替えるようにした
* 手元のマシンで新機能を試したら(当たり前だけど)SPARQLエンドポイント通すよりかなり速くなった
* 手元のマシンで新機能を試したら(当たり前だけど)SPARQLエンドポイント通すよりかなり速くなった
** どのくらい差が出るかtimeで簡易比較
** どのくらい差が出るかtimeで簡易比較
 +
*** SPARQLエンドポイント経由: 53m31.636s, JDBC経由: 1m7.376s

2017年10月24日 (火) 09:58時点における最新版

SBM Extractor for Local Virtuoso

背景

  • 巨大なデータはhttp経由だとクロールがよく失敗する,あるいは時間がかかりすぎる
  • ローカルなマシンにダウンロードしてVirtuosoに入れてもSPARQL経由だとやはりよく失敗する
  • 周囲に Virtuoso 使ってサービスしてる人多い
  • Virtuoso の JDBC (Java版ODBC) 叩く抽出ツールがあると良さそう

SPARQLthon61 での作業

  • JDBC経由のアクセスを可能にできるように機能追加する
  • 手元のマシンで新機能を試したら(当たり前だけど)SPARQLエンドポイント通すよりかなり速くなった
    • どのくらい差が出るかtimeで簡易比較
      • SPARQLエンドポイント経由: 53m31.636s, JDBC経由: 1m7.376s
個人用ツール