BH12.12/SPARQLthon2/NBRCMedium

提供:TogoWiki

2012年11月19日 (月) 05:48時点におけるShuichi (トーク | 投稿記録)による版
(差分) ←前の版 | 最新版 (差分) | 次の版→ (差分)
移動: 案内, 検索

目次

SPARQLthonでのシナリオ

  • SPARQLthon1からの続き
  • 関係者でNBRC/JCM の菌株情報をNCBI Taxonomy / UniProt Taxonomy とどのように関係付けるか相談する
  • NBRC菌株ID と Taxonomy ID を関連付けるRDF の作成
  • DDBJの triplestore に蓄積されている、RefSeq GenomeRDF や UniProt RDF と組み合わせたケーススタディを考える
    • NBRC菌株の培養温度情報をトリプルにして、トリプルストアに入れる
    • 培養温度を問い合わせに使ったSPARQLを考えてみる

NBRC菌株名名寄せ結果

  • MSS(竹下さん)進捗報告

ClassB1: NBRD(BRC)で菌株ごとに決定された16S rRNA 等の塩基配列を介して、その配列をINSDCに登録する時に発行された”Taxonomy ID”とリンクできる場合

  • 各配列をBLAST検索した。
    • DB: nt
    • クエリ数 : 19,189
*検索配列全長で100% かつ、100%マッチが1つの場合のみ、ヒットとして採用し、アクセッションIDを入手した。 – 上記条件を満たすヒット数 : 3,245
**全長100%ヒットが2個以上 : 4,709
**全長100%ヒットなし : 11,235
  • アクセッションIDから、TaxonomyIDを得る。=>作業中 例) hIp://www.ncbi.nlm.nih.gov/nuccore/JX173790.1

ClassB1 : 粒度問題

  • 同じアクセッションIDにヒットしている菌株の16rRNAがある
NBRC 103437 dbj|AB178408.1| Gluconobacter japonicus gene for 16S rRNA, par\al sequence, strain: 
NBRC 103438 dbj|AB178408.1| Gluconobacter japonicus gene for 16S rRNA, par\al sequence, strain:
NBRC 103440 dbj|AB178408.1| Gluconobacter japonicus gene for 16S rRNA, par\al sequence, strain: 
NBRC 103441 dbj|AB178408.1| Gluconobacter japonicus gene for 16S rRNA, par\al sequence, strain:
  • 上記の場合を除いた同定菌株数は、2,330
** つまり、3,245 – 2,330 = 915 の株で、アクセションIDに重複あり。

ClassC: 菌株名のリテララルから文字検索に よってリンクできる場合

  • 検索クエリ作成法を改善し、検索し直している所
  • クエリのルールは以下の通り
 例)Emericella nidulans (Eidam) Vuillemin var. nidulans
人名や年は除く – genus + sp.
genus + species + (subsp. , var. , f. sp. , f. ) + subsp等 – genus+ cf. + species
  • ClassC : クエリの例(赤文字だけで検索した。)
Trichosporon sp. 
Staphylococcus aureus subsp. aureus 
Rosenbach 1884 
Emericella nidulans (Eidam) Vuillemin var. 
nidulans 
Aspergillus niger van Tieghem var. niger f. 
hennebergii Blochwitz ex Al-­‐Musalla 
Fusarium oxysporum Schlechtendahl emend. Snyder & 
Hansen f. sp. batatas (Wollenweber) Snyder & Hanse 
Trichoderma cf. pseudokoningii 
  • 森さん進捗報告
    • ひとつのStrainInfo IDに複数のNBRC IDが含まれるパターンがある

その他問題点

  • 「株」という概念と塩基配列を介して「NCBI Taxonomy」という概念をリンクする際の矛盾点が気持ち悪い
    • ClassA: NCBIがリンクしたNBRC IDを信用するのか
    • ClassB1: 16S配列→100%マッチで複数のNCBI TaxIDにあたるパターン
    • ClassB1: 複数のNBRC ID→一意のNCBI TaxIDにあたるパターン

ClassAとClassB1の手法でNBRC ID-TaxID対応が取れたもののうち重複しているものの数

菌株メタデータ記述のための利用オントロジーと統制語彙の設計

URIs

Environmental Metadata (MEO)

    • isolation from
    • sampling
    • habitat

Organism Metadata (MCCV (MCL), UO)

  • temperature range
mccv:growthTemperature
mccv:minimalGrowthTemperature
mccv:optimalGrowthTemperature
mccv:maximalGrowthTemperature 
  • pH range
mccv:growthPH
mccv:maximumGrowthPH
mccv:optimalGrowthPH
mccv:minimumGrowthPH

Growth Medium (GMO, MCCV (MCL), UO)

  • pH
  • chemical compound

SPARQL

培養温度0℃以上、20℃以下 のNCBI Taxonomy ID および NBRC No. 一覧

SELECT ?taxid ?nbrc ?low_tmp ?high_tmp ?species
WHERE {
  GRAPH <http://dbcls.rois.ac.jp/lsdb/> {
    ?taxid ?p ?nbrc .
    ?nbrc <http://purl.jp/bio/10/mccv/minimalGrowthTemperature> ?low_tmp .
    ?nbrc <http://purl.jp/bio/10/mccv/maximalGrowthTemperature> ?high_tmp .
    FILTER ( regex(?taxid, 'ncbi', 'i') && (?low_tmp > 0) && (?high_tmp < 20) )
  }
} LIMIT 10"

結果

 taxid	nbrc	low_tmp	high_tmp	species
<http://www.ncbi.nlm.nih.gov/taxonomy/41988>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=15735>	10	10	
<http://www.ncbi.nlm.nih.gov/taxonomy/1113655>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=15736>	10	10	
<http://www.ncbi.nlm.nih.gov/taxonomy/77025>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=15737>	10	10	
<http://www.ncbi.nlm.nih.gov/taxonomy/1407>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=101233>	15	15	
<http://www.ncbi.nlm.nih.gov/taxonomy/1174504>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=101233>	15	15	
<http://www.ncbi.nlm.nih.gov/taxonomy/88364>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=103166>	15	15	
<http://www.ncbi.nlm.nih.gov/taxonomy/99286>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=102676>	15	15	
<http://www.ncbi.nlm.nih.gov/taxonomy/104270>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=15947>	15	15	
<http://www.ncbi.nlm.nih.gov/taxonomy/180441>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=103156>	15	15	
<http://www.ncbi.nlm.nih.gov/taxonomy/25>	<http://www.nbrc.nite.go.jp/NBRC2/NBRCCatalogueDetailServlet?ID=NBRC&CAT=102223>	15	15


GenomeRDF との組み合わせ(生物種名を、GenomeRDFから取得)

ruby bin/sparql.rb query "
SELECT ?taxid ?nbrc ?low_tmp ?high_tmp ?species
WHERE {
  GRAPH <http://dbcls.rois.ac.jp/lsdb/> {
    ?taxid ?p ?nbrc .
    ?nbrc <http://purl.jp/bio/10/mccv/minimalGrowthTemperature> ?low_tmp .
    ?nbrc <http://purl.jp/bio/10/mccv/maximalGrowthTemperature> ?high_tmp .
    FILTER ( regex(?taxid, 'ncbi', 'i') && (?low_tmp > 30) && (?high_tmp < 100) )
  }
  GRAPH <http://genome.db/> {
    ?s1 ?p1 ?taxid .
    ?s1 <http://genome.db/sw/organism> ?species .
  }
} LIMIT 10"