BH13.13/MBGD

提供:TogoWiki

移動: 案内, 検索

BH13.13/MicrobeDB.jpへ

目次

取り組み内容

DB間連携

  • オーソログ情報のRDF化の現状について報告
    • 協力に向けて
  • 微生物データ統合に向けた基礎データ収集
  • GenomeRefine→MBGD→MicrobeDB
    • /db/project/microbe/
    • 236 に関して ortholog.ttl を生成して push
    • 結果を戻す間に、元が変わっていたら、変なことになる可能性がある
  • 分散DBを連結した検索
    • sparqling機能強化
      • property pathの指定

情報収集

  • データの管理方法
    • 推論した結果を、データとして保存することによって、検索を高速化する
    • construct分で推論結果を吐き出して、それをロードする
    • taxonomyなどの場合で、数時間かかる
    • 速度が100倍になる場合もある
  • クエリの書き方
    • option(transitive) の様々なオプションを駆使して、さらに詳しい検索結果が得られる
?new_tax rdfs:subClassOf ?ancestor option (transitive, t_direction 1, t_min 1, t_step("step_no") as ?step) .
  • Microdata, RDFa (core), Microformats → RDFa Lite
    • image, isEntryOf (database), entryId, taxon, disease, seeAlso, dateModified, reference
  • グラフデータベース Neo4j
    • エッジ自体にvalueが付けられる
      • RDFのように、余計なエッジをはる必要がない
      • パスの意味するものが、より直感的に分かりやすい
    • 分かりやすいクエリ言語 Cypher
    • ヒストリー付きクエリ入力インターフェース
    • 結果のvisualizeがきれい
  • データ同士の関連性の統計的探索 [1]

RDF化とスタンザ

  • default生物種の'枠'を表示
    • up:Family 以上の taxonomy ID を取得して mbgd:TaxonShown を付加した
  • Taxon-specificオーソログテーブルのRDF化
/db/protject/MBGD/WWW/bin/make_cluster_arch.pl -DBNAME=mbgd_tmp2_dev default
/db/protject/MBGD/WWW/bin/make_cluster_arch.pl tax9
cd $MBGD_HOME/WWW/bin
./make_cluster_arch.pl taxNNN > $MBGD_HOME/WWW/htbin/dist/mbgd_20NN-NN/COREALIGN/tax_category_name/taxNNN.dclst
  • 自動化

/home/chiba/semantic/bh13.13/tax_specific_clusers.pl

サーバー設定

  • テスト用エンドポイント: 8048
    • /work/virtuoso-test (SSD)

  • sparqling 強化
  • triple store browser Web版

Stanza

TogoStanza-gem

http://bias4.nibb.ac.jp:9292/stanza/

http://bias4.nibb.ac.jp:9292/stanza/ortholog_environment_profile?gene_id=Pcar_3116&tax_id=338963

http://bias4.nibb.ac.jp:9292/stanza/ortholog_environment_profile?gene_id=slr1311&tax_id=1111707

http://bias4.nibb.ac.jp:9292/stanza/taxonomy_ortholog_profile?tax_id=562

http://bias4.nibb.ac.jp:9292/stanza/ortholog_taxon_profile?tax_id=1111707&gene_id=slr1311

Tips

なんとなくそれっぽいの

http://lalo.nibb.ac.jp/~hiroyo/MBGDrdf/stanza_test.html

基礎データ収集

MBGD release 2013-02

complete genome sequences の数を調べる

PREFIX mbgd: <http://mbgd.genome.ad.jp/owl/mbgd.owl#>

SELECT count(distinct ?organism)
WHERE {
  ?organism a mbgd:Organism .
}

結果:2577

Eukaryota に限定して調べる

PREFIX mbgd: <http://mbgd.genome.ad.jp/owl/mbgd.owl#>
PREFIX up: <http://purl.uniprot.org/core/>
PREFIX tax: <http://purl.uniprot.org/taxonomy/>

SELECT count(distinct ?organism)
WHERE {
    ?organism a mbgd:Organism; up:organism ?tax_id .
    ?tax_id rdfs:subClassOf* tax:2759 .
}

結果:45

defaultクラスタリング結果に限定して調べる

PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX orth: <http://mbgd.genome.ad.jp/owl/ortholog.owl#>
PREFIX mbgd: <http://mbgd.genome.ad.jp/owl/mbgd.owl#>
PREFIX up: <http://purl.uniprot.org/core/>
PREFIX tax: <http://purl.uniprot.org/taxonomy/>

SELECT count(distinct ?organism)
WHERE {
    ?group a mbgd:Cluster , mbgd:Default .
    ?group orth:member ?member. 
    ?member mbgd:organism ?organism .
}

結果:728

defaultクラスタリング結果、かつ Eukaryota に限定して調べる

PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX orth: <http://mbgd.genome.ad.jp/owl/ortholog.owl#>
PREFIX mbgd: <http://mbgd.genome.ad.jp/owl/mbgd.owl#>
PREFIX up: <http://purl.uniprot.org/core/>
PREFIX tax: <http://purl.uniprot.org/taxonomy/>

SELECT count(distinct ?organism)
WHERE {
    ?group a mbgd:Cluster , mbgd:Default .
    ?group orth:member ?member. 
    ?member mbgd:organism ?organism .
    ?organism up:organism ?tax_id .
    ?tax_id rdfs:subClassOf* tax:2759 .
}

結果:36

遺伝子の数を調べる

PREFIX orth: <http://mbgd.genome.ad.jp/owl/ortholog.owl#>
PREFIX mbgd: <http://mbgd.genome.ad.jp/owl/mbgd.owl#>

SELECT count(distinct ?gene)
WHERE {
  ?gene a mbgd:Gene .
}

結果:8787826

Eukaryotaに限定して、遺伝子数を調べる

PREFIX orth: <http://mbgd.genome.ad.jp/owl/ortholog.owl#>
PREFIX mbgd: <http://mbgd.genome.ad.jp/owl/mbgd.owl#>
PREFIX up: <http://purl.uniprot.org/core/>
PREFIX tax: <http://purl.uniprot.org/taxonomy/>

SELECT count(distinct ?gene)
WHERE {
  ?gene a mbgd:Gene .
  ?gene mbgd:organism/up:organism ?tax_id .
  ?tax_id rdfs:subClassOf* tax:2759 .
}

結果:381863

defaultクラスタリングに含まれる遺伝子を調べる

PREFIX orth: <http://mbgd.genome.ad.jp/owl/ortholog.owl#>
PREFIX mbgd: <http://mbgd.genome.ad.jp/owl/mbgd.owl#>

SELECT count(distinct ?gene)
WHERE {
  ?group a mbgd:Cluster, mbgd:Default .
  ?group orth:member/mbgd:gene ?gene .
}

結果:2626489

defaultクラスタリングに含まれる遺伝子を、Eukaryotaに限定して調べる

PREFIX orth: <http://mbgd.genome.ad.jp/owl/ortholog.owl#>
PREFIX mbgd: <http://mbgd.genome.ad.jp/owl/mbgd.owl#>
PREFIX up: <http://purl.uniprot.org/core/>
PREFIX tax: <http://purl.uniprot.org/taxonomy/>

SELECT count(distinct ?gene)
WHERE {
  ?group a mbgd:Cluster, mbgd:Default .
  ?group orth:member/mbgd:gene ?gene .
  ?gene mbgd:organism/up:organism ?tax_id .
  ?tax_id rdfs:subClassOf* tax:2759 .
}

結果:297781

オーソログクラスターの数を調べる

defaultクラスタリング結果に含まれる、オーソログクラスターの数を調べる

PREFIX orth: <http://mbgd.genome.ad.jp/owl/ortholog.owl#>
PREFIX mbgd: <http://mbgd.genome.ad.jp/owl/mbgd.owl#>

SELECT count(distinct ?group)
WHERE {
    ?group a mbgd:Cluster , mbgd:Default .
    ?group orth:member ?member. 
    ?member mbgd:organism ?organism .
}

結果:350560

defaultクラスタリング結果に含まれる、オーソログクラスターの数を、Eukaryotaに限定して調べる

PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX orth: <http://mbgd.genome.ad.jp/owl/ortholog.owl#>
PREFIX mbgd: <http://mbgd.genome.ad.jp/owl/mbgd.owl#>
PREFIX up: <http://purl.uniprot.org/core/>
PREFIX tax: <http://purl.uniprot.org/taxonomy/>

SELECT count(distinct ?group)
WHERE {
    ?group a mbgd:Cluster , mbgd:Default .
    ?group orth:member ?member. 
    ?member mbgd:organism ?organism .
    ?organism up:organism ?tax_id .
    ?tax_id rdfs:subClassOf* tax:2759 .
}

結果:67621

個人用ツール