BH12.12/SPARQLthon/NBRCMedium
提供:TogoWiki
目次 |
SPARQLthonでのシナリオ
- 関係者でNBRC/JCM の菌株情報をNCBI Taxonomy / UniProt Taxonomy とどのように関係付けるか相談する
- NBRC菌株ID と Taxonomy ID を関連付けるRDF の作成
- DDBJの triplestore に蓄積されている、RefSeq GenomeRDF や UniProt RDF と組み合わせたケーススタディを考える
- NBRC菌株の培養温度情報をトリプルにして、トリプルストアに入れる
- 培養温度を問い合わせに使ったSPARQLを考えてみる
菌株名寄せ方針@2012-10-25菌株会議
ClassA: "Strain ID"を介して一意に"Taxonomy ID"と菌株番号がリンクできる場合
- NCBI FTPの "taxdump.tar.gz" (BRC IDの対応表がある NBRC, JCMとも取得可)ファイルから、NBRC IDとJCM IDの対応を取る
- NBRC ID - NCBI TaxID 1650
- JCM ID - NCBI TaxID 3596
- [TODO] 対応表をつくる -skwsm => done (10/30)
- 対応関係は、ncbi の tax dump を利用。
- Taxonomy ID としては、identifiers.org ex) <http://identifiers.org/taxonomy/7>, uniprot ex) <http://purl.uniprot.org/taxonomy/7>, NCBI ex) <http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=7> の3つを冗長に利用
- [TODO] NCBI TaxID と JCM StrainID 対応表をつくる -skwsm => done (10/30)
ClassB1: NBRC (BRC) で菌株ごとに決定された16S rRNA等の塩基配列を介して、その配列をINSDCに登録するときに発行された"Taxonomy ID"とリンクできる場合
- NBRC市原先生より16S rRNAの配列と菌株名の対応表(?)などをいただく
- 配列ベースでNCBIのエントリーに対して検索する
- NBRC IDは、INSDC エントリーファイルのsourceの以下に分かれて入っている可能性がある
- strain, sub_strain, culture_collection, db_xref
- 2012-10-30 [DONE] 市原先生にプッシュメール書く -so
- 2012-10-31 NBRC ID - 16S rRNA seq. 対応表をいただいた
- [TODO] 2. 3. のプロセスを行う -MSS
ClassB2: StrainInfoなどの菌株DBが収集しているExternal Link情報から"Taxonomy ID"とリンクできる場合
- StrainInfoの外部IDのデータセットを取得(菌株IDの種類が68万種)
- NBRC IDとStrainInfo外部IDデータセットの対応をとる
- 対応が取れたエントリーのINSDC配列アクセション番号を全て取得
- INSDC配列アクセッション番号がないエントリーはすてる
- INSDC配列アクセッション番号からエントリーをたどりその中のTaxIDを取得
- sort/uniq 一意に決まるものを選抜
- [TODO] 機械的にできるところをさらっとやってみる -hmori
ClassC: 菌株名のリテラルから文字検索によってリンクできる場合
- MSS社の方法
- [TODO] 菌株名の読み方/検索クエリ作成法を受けて改善 -MSS
その他覚え書き
- ClassAとそれ以外の名寄せ結果はRDFのskosマッピング語彙などを使ってリンクの厳密さを明示的にわける
- ClassAとそれ以外はアプリケーションも分ける
- StrainInfoのStarainInfo ID-ゲノムアクセッション番号-TaxIDからある程度答え合わせする
SPARQL サンプル
- NCBI Tax ID <http://identifiers.org/taxonomy/7> からリンクされている オブジェクトを検索(この場合、NBRCの菌株が期待されている)
select * from <http://dbcls.rois.ac.jp/lsdb/> where { <http://identifiers.org/taxonomy/7> ?p ?o .} limit 10';
- グラフのURLが、<http://dbcls.rois.ac.jp/lsdb/>
- 結果
p o <http://www.w3.org/2000/01/rdf-schema#seeAlso> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=14845> <http://www.w3.org/2000/01/rdf-schema#seeAlso> <http://www.jcm.riken.go.jp/cgi-bin/jcm/jcm_number?JCM=20966>
- 培養温度が25C以上、30C以下の菌株のNCBI Taxon IDとともに表示
SELECT ?taxid ?nbrc ?low_tmp ?high_tmp FROM <http://dbcls.rois.ac.jp/lsdb/> WHERE { ?taxid ?p ?nbrc. ?nbrc <http://purl.jp/bio/10/gmo/lower_caltivation_temparature> ?low_tmp. ?nbrc <http://purl.jp/bio/10/gmo/higher_caltivation_temparature> ?high_tmp FILTER ((?low_tmp > 25) && (?high_tmp < 30) && (regex(?taxid, "ncbi", "i"))) } limit 10
- 結果
taxid nbrc low_tmp high_tmp <http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=103728> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=15665> 26 26 <http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=103730> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=15663> 26 26 <http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=155974> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=15668> 26 26 <http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=298163> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100761>26 26 <http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=370764> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=101800>27 27 <http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=171437> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=102134>27 27 <http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=203523> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100759>27 27 <http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=297536> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100762>27 27 <http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=412687> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=101802>27 27 <http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=412689> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=101803>27 27
- 培養温度が40C以上、100C以下の菌株のNCBI Taxon IDとともに表示
SELECT ?taxid ?nbrc ?low_tmp ?high_tmp FROM <http://dbcls.rois.ac.jp/lsdb/> WHERE { ?taxid ?p ?nbrc. ?nbrc <http://purl.jp/bio/10/gmo/lower_caltivation_temparature> ?low_tmp. ?nbrc <http://purl.jp/bio/10/gmo/higher_caltivation_temparature> ?high_tmp FILTER ((?low_tmp > 40) && (?high_tmp < 100) && (regex(?taxid, "ncbi", "i"))) } limit 100
- 結果
<http://purl.uniprot.org/taxonomy/2021> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=14071> 45 45 <http://purl.uniprot.org/taxonomy/2026> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=13606> 45 45 <http://purl.uniprot.org/taxonomy/37482> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=13920> 45 45 <http://purl.uniprot.org/taxonomy/40990> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=14831> 45 45 <http://purl.uniprot.org/taxonomy/58112> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=14480> 45 45 <http://purl.uniprot.org/taxonomy/103836> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=14349> 45 45 : : <http://purl.uniprot.org/taxonomy/2271> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100435> 85 85 <http://purl.uniprot.org/taxonomy/53953> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100139> 85 85 <http://purl.uniprot.org/taxonomy/54256> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100439> 90 90 <http://purl.uniprot.org/taxonomy/2320> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100938> 90 90 <http://purl.uniprot.org/taxonomy/2309> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100438> 95 95 <http://purl.uniprot.org/taxonomy/13773> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100827> 95 95 <http://purl.uniprot.org/taxonomy/35616> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=100437> 95 95
- 培養温度が40C以上、100C以下の菌株のNCBI Taxon ID と、Genome RDF を利用して、菌株名を表示
SELECT ?taxid ?species ?nbrc ?low_tmp ?high_tmp WHERE { GRAPH <http://dbcls.rois.ac.jp/lsdb/> { ?taxid ?p ?nbrc. ?nbrc <http://purl.jp/bio/10/gmo/lower_caltivation_temparature> ?low_tmp. ?nbrc <http://purl.jp/bio/10/gmo/higher_caltivation_temparature> ?high_tmp FILTER ((?low_tmp > 40) && (?high_tmp < 100) && (regex(?taxid, "ncbi", "i"))) } GRAPH <http://genome.db/> { ?s1 ?p1 ?taxid . ?s1 ?rdfs:label ?species . } } limit 100;
- 結果