BH12.12/SPARQLthon2/NBRCMedium
提供:TogoWiki
目次 |
SPARQLthonでのシナリオ
- SPARQLthon1からの続き
- 関係者でNBRC/JCM の菌株情報をNCBI Taxonomy / UniProt Taxonomy とどのように関係付けるか相談する
- NBRC菌株ID と Taxonomy ID を関連付けるRDF の作成
- DDBJの triplestore に蓄積されている、RefSeq GenomeRDF や UniProt RDF と組み合わせたケーススタディを考える
- NBRC菌株の培養温度情報をトリプルにして、トリプルストアに入れる
- 培養温度を問い合わせに使ったSPARQLを考えてみる
NBRC菌株名名寄せ結果
- MSS(竹下さん)進捗報告
ClassB1: NBRD(BRC)で菌株ごとに決定された16S rRNA 等の塩基配列を介して、その配列をINSDCに登録する時に発行された”Taxonomy ID”とリンクできる場合
- 各配列をBLAST検索した。
- DB: nt
- クエリ数 : 19,189 *検索配列全長で100% かつ、100%マッチが1つの場合のみ、ヒットとして採用し、アクセッションIDを入手した。 – 上記条件を満たすヒット数 : 3,245 **全長100%ヒットが2個以上 : 4,709 **全長100%ヒットなし : 11,235
- アクセッションIDから、TaxonomyIDを得る。=>作業中 例) hIp://www.ncbi.nlm.nih.gov/nuccore/JX173790.1
ClassB1 : 粒度問題
- 同じアクセッションIDにヒットしている菌株の16rRNAがある
NBRC 103437 dbj|AB178408.1| Gluconobacter japonicus gene for 16S rRNA, par\al sequence, strain: NBRC 103438 dbj|AB178408.1| Gluconobacter japonicus gene for 16S rRNA, par\al sequence, strain: NBRC 103440 dbj|AB178408.1| Gluconobacter japonicus gene for 16S rRNA, par\al sequence, strain: NBRC 103441 dbj|AB178408.1| Gluconobacter japonicus gene for 16S rRNA, par\al sequence, strain:
- 上記の場合を除いた同定菌株数は、2,330 ** つまり、3,245 – 2,330 = 915 の株で、アクセションIDに重複あり。
ClassC: 菌株名のリテララルから文字検索に よってリンクできる場合
- 検索クエリ作成法を改善し、検索し直している所
- クエリのルールは以下の通り 例)Emericella nidulans (Eidam) Vuillemin var. nidulans
人名や年は除く – genus + sp. genus + species + (subsp. , var. , f. sp. , f. ) + subsp等 – genus+ cf. + species
- ClassC : クエリの例(赤文字だけで検索した。)
Trichosporon sp. Staphylococcus aureus subsp. aureus Rosenbach 1884 Emericella nidulans (Eidam) Vuillemin var. nidulans Aspergillus niger van Tieghem var. niger f. hennebergii Blochwitz ex Al-‐Musalla Fusarium oxysporum Schlechtendahl emend. Snyder & Hansen f. sp. batatas (Wollenweber) Snyder & Hanse Trichoderma cf. pseudokoningii
- 森さん進捗報告
- ひとつのStrainInfo IDに複数のNBRC IDが含まれるパターンがある
その他問題点
- 「株」という概念と塩基配列を介して「NCBI Taxonomy」という概念をリンクする際の矛盾点が気持ち悪い
- ClassA: NCBIがリンクしたNBRC IDを信用するのか
- ClassB1: 16S配列→100%マッチで複数のNCBI TaxIDにあたるパターン
- ClassB1: 複数のNBRC ID→一意のNCBI TaxIDにあたるパターン
菌株メタデータ記述のための利用オントロジーと統制語彙の設計
URIs
- Microbial Culture Collection Vocabulary
- http://identifiers.org/
Environmental Metadata (MEO)
- isolation from
- sampling
- habitat
Organism Metadata (MCCV (MCL), UO)
- temperature range
mccv:growthTemperature mccv:minimalGrowthTemperature mccv:optimalGrowthTemperature mccv:maximalGrowthTemperature
- pH range
mccv:growthPH mccv:maximumGrowthPH mccv:optimalGrowthPH mccv:minimumGrowthPH
Growth Medium (GMO, MCCV (MCL), UO)
- pH
- chemical compound
SPARQL
培養温度0℃以上、20℃以下 のNCBI Taxonomy ID および NBRC No. 一覧
SELECT ?taxid ?nbrc ?low_tmp ?high_tmp ?species WHERE { GRAPH <http://dbcls.rois.ac.jp/lsdb/> { ?taxid ?p ?nbrc . ?nbrc <http://purl.jp/bio/10/mccv/minimalGrowthTemperature> ?low_tmp . ?nbrc <http://purl.jp/bio/10/mccv/maximalGrowthTemperature> ?high_tmp . FILTER ( regex(?taxid, 'ncbi', 'i') && (?low_tmp > 0) && (?high_tmp < 20) ) } } LIMIT 10"
結果
taxid nbrc low_tmp high_tmp species <http://www.ncbi.nlm.nih.gov/taxonomy/41988> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=15735> 10 10 <http://www.ncbi.nlm.nih.gov/taxonomy/1113655> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=15736> 10 10 <http://www.ncbi.nlm.nih.gov/taxonomy/77025> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=15737> 10 10 <http://www.ncbi.nlm.nih.gov/taxonomy/1407> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=101233> 15 15 <http://www.ncbi.nlm.nih.gov/taxonomy/1174504> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=101233> 15 15 <http://www.ncbi.nlm.nih.gov/taxonomy/88364> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=103166> 15 15 <http://www.ncbi.nlm.nih.gov/taxonomy/99286> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=102676> 15 15 <http://www.ncbi.nlm.nih.gov/taxonomy/104270> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=15947> 15 15 <http://www.ncbi.nlm.nih.gov/taxonomy/180441> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=103156> 15 15 <http://www.ncbi.nlm.nih.gov/taxonomy/25> <http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=102223> 15 15
GenomeRDF との組み合わせ(生物種名を、GenomeRDFから取得)
ruby bin/sparql.rb query " SELECT ?taxid ?nbrc ?low_tmp ?high_tmp ?species WHERE { GRAPH <http://dbcls.rois.ac.jp/lsdb/> { ?taxid ?p ?nbrc . ?nbrc <http://purl.jp/bio/10/mccv/minimalGrowthTemperature> ?low_tmp . ?nbrc <http://purl.jp/bio/10/mccv/maximalGrowthTemperature> ?high_tmp . FILTER ( regex(?taxid, 'ncbi', 'i') && (?low_tmp > 30) && (?high_tmp < 100) ) } GRAPH <http://genome.db/> { ?s1 ?p1 ?taxid . ?s1 <http://genome.db/sw/organism> ?species . } } LIMIT 10"