SPARQLthon/TogoGenomeUpdate/2019 01

提供:TogoWiki

移動: 案内, 検索

目次

バージョン

  • refseq: release92
  • uniprot: 2019_01

DBファイルサイズ

270G

更新時期

  • 開始: 2019-01-23 01:27
  • 終了: 2019-02-06 19:31
  1. 数日の中断あり

トリプル数統計

総トリプル数

6,861,692,414トリプル(約68億)

グラフ一覧とトリプル数

グラフURIトリプル数
http://togogenome.org/graph/uniprot3468900271
http://togogenome.org/graph/refseq1890697304
http://togogenome.org/graph/edgestore938295507
http://togogenome.org/graph/assembly_report360523939
http://togogenome.org/graph/goup59047989
http://togogenome.org/graph/tgup53612593
http://togogenome.org/graph/stats46338343
http://togogenome.org/graph/taxonomy29054561
http://togogenome.org/graph/gazetteer7062536
http://togogenome.org/graph/gotax3845607
http://togogenome.org/graph/gold1600208
http://togogenome.org/graph/go1573748
http://togogenome.org/graph/brc914050
http://togogenome.org/graph/tgtax118142
http://togogenome.org/graph/so43060
http://togogenome.org/graph/taxonomy_lite16100
http://togogenome.org/graph/insdc14238
http://togogenome.org/graph/gmo6956
http://togogenome.org/graph/meo4468
http://togogenome.org/graph/meo_descendants4247
http://togogenome.org/graph/pdo_mapping3305
http://togogenome.org/graph/pdo2881
http://togogenome.org/graph/csso2537
http://togogenome.org/graph/mpo1653
http://togogenome.org/graph/mpo_descendants1482
http://togogenome.org/graph/mccv675
http://togogenome.org/graph/faldo235
http://togogenome.org/graph27

リリース(予定)

TogoGenome更新

テキスト検索のSolr設定を変更

  • 現状のテキスト検索結果
    • Forms homodimers and heterodimers with FOXP1 => ヒットしない
    • Forms homodimers heterodimers FOXP1 => ヒットする
  • 原因
    • Stop wordと呼ばれる意味を持たない英単語(the, in, and)を排除する設定がかかっていたため、それらが含まれる文字検索はヒットしない
    • Index生成、クエリ時の両方で設定を揃えておけば問題はおきにくいが、クエリを次のように組み立てており無視できていなかった。
// "Forms"が含まれる、かつ"homodimers"が含まれる、かつ"and"が含まれる(ここでStop word無視していない)、かつ(以下略)
http://localhost:15963/solr/protein_general_annotation/select?q=(text:"Forms"+OR+id_text:"Forms")+AND+(text:"homodimers"+OR+id_text:"homodimers")+AND+(text:"and"+OR+id_text:"and")+AND+(text:"heterodimers"+OR+id_text:"heterodimers")+AND+(text:"with"+OR+id_text:"with")+AND+(text:"FOXP1"+OR+id_text:"FOXP1")&wt=json&rows=1000&indent=true'
  • 対策
    • Stop wordを無視する設定をコメントアウト(無視しない)。クエリを変える方法もあるが検索結果が変わる可能性がある
// Solr(本番), Solr(開発用)の両方で、各インデックス(スタンザ)の設定ファイルを修正
$ vi /data/store/rdf/togogenome/text_search/solr_cores_dev/protein_general_annotation/conf/schema.xml

   <fieldType name="text_en_splitting"  (略)    <= 文字列検索用の型
     (略)
     <analyzer type="index">  <= インデックス生成時
       <!--
       <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="lang/stopwords_en.txt"
                />
       -->
     (略)
     <analyzer type="query">  <= クエリ時
       <!--
       <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="lang/stopwords_en.txt"
                />
       -->
個人用ツール