SPARQLthon/TogoGenomeUpdate

提供:TogoWiki

移動: 案内, 検索

このページではTogoGenomeの更新手順をまとめています。サーバ等の環境については別途資料に示し明記をしていません。

目次

更新のタイミング

TogoGenomeの更新処理はUniProtとRefSeqの更新のタイミングに合わせる
UniProtは月次更新、RefSeqの数ヶ月間隔の不定期更新であるため、基本的にUniProtの更新直後のタイミングでTogoGenomeの更新を行う。更新スクリプトの実行時間は約10日間(2016年12月現在。)
RefSeqに変更がない月の更新では、現バージョンのRefSeqデータを再利用することで更新にかかる時間を短縮する。

更新履歴

更新内容

  • Ontologyデータ更新 (OPTIONAL)
  • RDFデータ更新
  • Virtuosoへのロード
  • JBrowseデータ更新とロード
  • 全文検索用(solr)データ更新とロード
  • TogoStanza更新 (OPTIONAL)
  • TogoGenomeアプリ更新 (OPTIONAL)
  • 配列検索用FASTAファイル更新(RefSeqバージョンアップ時のみ)

更新手順

Ontologyデータ更新

環境: ep1
$TG_HOME/bin/update/update_ontology.shファイルのontologyのバージョン番号を更新する

自動更新されるOntology

faldo, taxonomy, insdc, obo_go, obo_soの5つのontologyファイルは管理サイトから最新版を自動的にダウンロードするため、更新日の日付に書き換える

マニュアル更新Ontology

MPOやMEO等の更新有無を各Ontologyファイルの管理者に確認し、更新の必要があればファイルをロード用ディレクトリにダウンロードし、update_ontology.shファイルのontologyのバージョン番号を更新する

インポート用エンドポイントのクリア

前回のインポートデータを削除するため、Virtuosoの停止、クリア、起動、を行う。

71.sh stop
71.sh clear
71.sh start

データ更新とロード

RDFデータ更新とVirtuosoへのロード、Solr, JBrowse, FASTAファイル更新については自動化しておりシェルスクリプトを実行すれば更新される。
UniProtだけの更新とRefSeqも合わせて更新する場合とで引数を変えて実行する。

$TG_HOME/bin/update_all.sh 2016_12    #only update uniprot
$TG_HOME/bin/update_all.sh 2016_12 79 #update uniprot and refseq

データ更新の確認

ロードが終わった以下の確認を行う

RDF更新の確認

Virtuosoのグラフ毎のトリプル数を確認する(前版と比べて減っていないか)

SELECT COUNT(*) WHERE { ?s ?p ?o } //全トリプル数
SELECT ?g COUNT(*) WHERE { GRAPH ?g { ?s ?p ?o }} GROUP BY ?g ORDER BY DESC 2 //グラフごとのトリプル数

Solrデータの動作確認

Indexファイルのデータ量が前版と比べて減っていないか確認する
また、以下のスクリプトを実行し、文字列ヒットしなくなっているスタンザがないか確認する。単純にテスト用検索文字列がヒットしなくなっている可能性もある

$TG_HOME/bin/text_search/test/solr_all_stanza_test.rb
// 検索ヒットしないスタンザがあると、"WARNING! Please check the solr index data."と表示される

スタンザの更新確認

データ更新によってスタンザの挙動に不具合がでないか確認する。スキーマの変更があった場合には動作しなくなる可能性があるためスタンザを修正する。
確認のために、sedで一時的にエンドポイントを切り替える(確認がおわれば元に戻す)

$ find . -name "stanza.rb" | xargs sed -i '' 's#http://togogenome.org/sparql#http://ep.dbcls.jp/sparql-import#g'

dev用エンドポイントの入れ替え

JBrowseの動作確認

TogoGenomeの動作確認

データ更新とロード

個人用ツール