BH12.12/SPARQLthon/NBRCMedium

提供:TogoWiki

移動: 案内, 検索

目次

SPARQLthonでのシナリオ

  • 関係者でNBRC/JCM の菌株情報をNCBI Taxonomy / UniProt Taxonomy とどのように関係付けるか相談する
  • NBRC菌株ID と Taxonomy ID を関連付けるRDF の作成
  • DDBJの triplestore に蓄積されている、RefSeq GenomeRDF や UniProt RDF と組み合わせたケーススタディを考える
    • NBRC菌株の培養温度情報をトリプルにして、トリプルストアに入れる
    • 培養温度を問い合わせに使ったSPARQLを考えてみる

菌株名寄せ方針@2012-10-25菌株会議

ClassA: "Strain ID"を介して一意に"Taxonomy ID"と菌株番号がリンクできる場合

  1. NCBI FTPの "taxdump.tar.gz" (BRC IDの対応表がある NBRC, JCMとも取得可)ファイルから、NBRC IDとJCM IDの対応を取る

ClassB1: NBRC (BRC) で菌株ごとに決定された16S rRNA等の塩基配列を介して、その配列をINSDCに登録するときに発行された"Taxonomy ID"とリンクできる場合

  1. NBRC市原先生より16S rRNAの配列と菌株名の対応表(?)などをいただく
  2. 配列ベースでNCBIのエントリーに対して検索する
  3. NBRC IDは、INSDC エントリーファイルのsourceの以下に分かれて入っている可能性がある
    1. strain, sub_strain, culture_collection, db_xref
  • 2012-10-30 [DONE] 市原先生にプッシュメール書く -so
  • 2012-10-31 NBRC ID - 16S rRNA seq. 対応表をいただいた
  • [TODO] 2. 3. のプロセスを行う -MSS

ClassB2: StrainInfoなどの菌株DBが収集しているExternal Link情報から"Taxonomy ID"とリンクできる場合

  1. StrainInfoの外部IDのデータセットを取得(菌株IDの種類が68万種)
  2. NBRC IDとStrainInfo外部IDデータセットの対応をとる
  3. 対応が取れたエントリーのINSDC配列アクセション番号を全て取得
  4. INSDC配列アクセッション番号がないエントリーはすてる
  5. INSDC配列アクセッション番号からエントリーをたどりその中のTaxIDを取得
  6. sort/uniq 一意に決まるものを選抜
  • [TODO] 機械的にできるところをさらっとやってみる -hmori

ClassC: 菌株名のリテラルから文字検索によってリンクできる場合

  1. MSS社の方法
  • [TODO] 菌株名の読み方/検索クエリ作成法を受けて改善 -MSS

その他覚え書き

  • ClassAとそれ以外の名寄せ結果はRDFのskosマッピング語彙などを使ってリンクの厳密さを明示的にわける
    • ClassAとそれ以外はアプリケーションも分ける
    • StrainInfoのStarainInfo ID-ゲノムアクセッション番号-TaxIDからある程度答え合わせする

SPARQL サンプル

  • NCBI Tax ID <http://identifiers.org/taxonomy/7> からリンクされている オブジェクトを検索(この場合、NBRCの菌株が期待されている)
select * from <http://dbcls.rois.ac.jp/lsdb/>
where { <http://identifiers.org/taxonomy/7> ?p ?o .}
limit 10';
  • 結果
p o
<http://www.w3.org/2000/01/rdf-schema#seeAlso>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=14845>
<http://www.w3.org/2000/01/rdf-schema#seeAlso>	<http://www.jcm.riken.go.jp/cgi-bin/jcm/jcm_number?JCM=20966>
  • 培養温度が25C以上、30C以下の菌株のNCBI Taxon IDとともに表示
SELECT ?taxid ?nbrc ?low_tmp ?high_tmp FROM <http://dbcls.rois.ac.jp/lsdb/>
WHERE { ?taxid ?p ?nbrc.
             ?nbrc <http://purl.jp/bio/10/gmo/lower_caltivation_temparature> ?low_tmp.
             ?nbrc <http://purl.jp/bio/10/gmo/higher_caltivation_temparature> ?high_tmp
FILTER ((?low_tmp > 25) &&
            (?high_tmp < 30) &&
            (regex(?taxid, "ncbi", "i")))
} limit 10
  • 結果
taxid	nbrc	low_tmp	high_tmp
<http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=103728>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=15665>	26	26
<http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=103730>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=15663>	26	26
<http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=155974>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=15668>	26	26
<http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=298163>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100761>26	26
<http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=370764>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=101800>27	27
<http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=171437>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=102134>27	27
<http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=203523>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100759>27	27
<http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=297536>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100762>27	27
<http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=412687>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=101802>27	27
<http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=412689>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=101803>27	27


  • 培養温度が40C以上、100C以下の菌株のNCBI Taxon IDとともに表示
SELECT ?taxid ?nbrc ?low_tmp ?high_tmp FROM <http://dbcls.rois.ac.jp/lsdb/>
WHERE { ?taxid ?p ?nbrc.
             ?nbrc <http://purl.jp/bio/10/gmo/lower_caltivation_temparature> ?low_tmp.
             ?nbrc <http://purl.jp/bio/10/gmo/higher_caltivation_temparature> ?high_tmp
FILTER ((?low_tmp > 40) &&
            (?high_tmp < 100) &&
            (regex(?taxid, "ncbi", "i")))
} limit 100
  • 結果
<http://purl.uniprot.org/taxonomy/2021>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=14071>	45	45
<http://purl.uniprot.org/taxonomy/2026>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=13606>	45	45
<http://purl.uniprot.org/taxonomy/37482>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=13920>	45	45
<http://purl.uniprot.org/taxonomy/40990>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=14831>	45	45
<http://purl.uniprot.org/taxonomy/58112>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=14480>	45	45
<http://purl.uniprot.org/taxonomy/103836>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=14349>	45	45
 :
 :
<http://purl.uniprot.org/taxonomy/2271>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100435>	85	85
<http://purl.uniprot.org/taxonomy/53953>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100139>	85	85
<http://purl.uniprot.org/taxonomy/54256>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100439>	90	90
<http://purl.uniprot.org/taxonomy/2320>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100938>	90	90
<http://purl.uniprot.org/taxonomy/2309>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100438>	95	95
<http://purl.uniprot.org/taxonomy/13773>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100827>	95	95
<http://purl.uniprot.org/taxonomy/35616>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100437>	95	95


  • 培養温度が40C以上、100C以下の菌株のNCBI Taxon ID と、Genome RDF を利用して、菌株名を表示
SELECT ?taxid ?species ?nbrc ?low_tmp ?high_tmp
WHERE {
GRAPH <http://dbcls.rois.ac.jp/lsdb/> {
            ?taxid ?p ?nbrc.
             ?nbrc <http://purl.jp/bio/10/gmo/lower_caltivation_temparature> ?low_tmp.
             ?nbrc <http://purl.jp/bio/10/gmo/higher_caltivation_temparature> ?high_tmp
             FILTER ((?low_tmp > 40) &&
                        (?high_tmp < 100) &&
                        (regex(?taxid, "ncbi", "i")))
           }
GRAPH <http://genome.db/> {
           ?s1 ?p1 ?taxid .
           ?s1 ?rdfs:label ?species .
           }
} limit 100;


  • 結果
個人用ツール