SPARQLthon26/GenomeDataSubset
提供:TogoWiki
(版間での差分)
(→MicrobeDB.jp対象の真核生物分類情報) |
|||
58行: | 58行: | ||
|} | |} | ||
- | == MicrobeDB.jpの真核生物サブセットを取得するSPARQL == | + | === MicrobeDB.jpの真核生物サブセットを取得するSPARQL === |
<pre> | <pre> | ||
DEFINE sql:select-option "order" | DEFINE sql:select-option "order" | ||
73行: | 73行: | ||
#values ?taxon_root {tax:1117} #For CyanoBase | #values ?taxon_root {tax:1117} #For CyanoBase | ||
#values ?taxon_root {tax:33090} #For PGDBj | #values ?taxon_root {tax:33090} #For PGDBj | ||
+ | #values ?category {"representative genome"}. | ||
+ | values ?version_status {"latest"}. | ||
+ | |||
+ | ?taxon_root a <http://ddbj.nig.ac.jp/ontologies/taxonomy/Taxon> . | ||
+ | ?taxon rdfs:subClassOf* ?taxon_root. | ||
+ | ?assembly asm:taxon ?taxon; | ||
+ | asm:refseq_category ?category; | ||
+ | asm:asm_name ?name; | ||
+ | asm:assembly_id ?id; | ||
+ | asm:assembly_level ?level; | ||
+ | asm:bioproject ?bioproject; | ||
+ | asm:bioproject_accession ?bioproject_accession; | ||
+ | asm:biosample_accession ?biosample_accession; | ||
+ | asm:gbrs_paired_asm ?gbrs_paired_asm; | ||
+ | asm:genome_rep ?rep; | ||
+ | asm:infraspecific_name ?infraspecific_name; | ||
+ | asm:isolate ?isolate; | ||
+ | asm:organism_name ?organism_name; | ||
+ | asm:paired_asm_comp ?paired_asm_comp; | ||
+ | asm:release_date ?release_date; | ||
+ | asm:release_type ?release_type; | ||
+ | asm:species_taxid ?species_taxid; | ||
+ | asm:submitter ?submitter; | ||
+ | asm:tax_id ?tax_id; | ||
+ | asm:taxon ?taxon; | ||
+ | asm:version_status ?version_status; | ||
+ | asm:wgs_master ?wgs_master; | ||
+ | rdfs:seeAlso ?link. | ||
+ | } | ||
+ | ORDER BY ?taxon_root | ||
+ | </pre> | ||
+ | |||
+ | === PGDBjの植物サブセットを取得するSPARQL === | ||
+ | <pre> | ||
+ | DEFINE sql:select-option "order" | ||
+ | |||
+ | PREFIX asm: <http://www.ncbi.nlm.nih.gov/assembly/> | ||
+ | PREFIX tax: <http://identifiers.org/taxonomy/> | ||
+ | |||
+ | select * | ||
+ | FROM <http://togogenome.org/graph/taxonomy> | ||
+ | FROM <http://togogenome.org/graph/assembly_report> | ||
+ | WHERE | ||
+ | { | ||
+ | #values ?taxon_root {tax:147537 tax:147545 tax:451866 tax:3041 tax: 2763} # For MicrobeDB.jp | ||
+ | #values ?taxon_root {tax:1117} #For CyanoBase | ||
+ | values ?taxon_root {tax:33090} #For PGDBj | ||
#values ?category {"representative genome"}. | #values ?category {"representative genome"}. | ||
values ?version_status {"latest"}. | values ?version_status {"latest"}. |
2014年12月17日 (水) 08:38時点における最新版
目次 |
目的
MicrobeDB.jpの真核ゲノム拡張対応およびPGDBjのマーカー情報RDF化に伴う対象ゲノム情報を取得
- MBGD でも真核・原核サブセットの取得が必要
- CyanoBaseの更新系にも利用
方法と課題
RefSeqゲノム情報取得
- TogoGenome/Refseq RDFのサブセットを取得する
- NCBI genomes/assembly_reportsを起点にTogoGenomeで更新系を準備中 → KEYWORD行のトリプルのpredicateで利用している#fragmentのエンコード問題が解決すると真核ゲノムRDF取得も対応
- http://tools.ietf.org/html/rfc3986#section-3.5 で頭文字が数字でもよい仕様を確認した。
- 片山さん開発したRefSeq の RDF データの生物系統ダウンロード TogoGenomeRDFDownload
- 例)シアノバクテリアのRefSeq RDFの一括取得 http://togogenome.org/download/refseq/1117
- NCBI genomes/assembly_reportsを起点にTogoGenomeで更新系を準備中 → KEYWORD行のトリプルのpredicateで利用している#fragmentのエンコード問題が解決すると真核ゲノムRDF取得も対応
RefSeq以外のデータベースからのゲノム情報取得
- 外部データベースのゲノムエントリおよびメタデータのリストの整理 → とりあえず、スプレッドシートで共有
- assembly_reportsのRDFのリンクと一意に関連づけられる情報を含める、候補)Taxonomy id, BioProject id, BioSample id, ... 件数が少ないので全部?
今後の課題
- 各DBが多様な形式で公開しているGFF3, TSVなどゲノムアノテーションのRDF化
- RefSeqと外部データベースのゲノムアノテーション情報のRDFを共存させるか?
対象の生物分類情報
taxon | rank | taxonomy id | 対象データベース |
---|---|---|---|
Saccharomycotina | subphylum(亜門) | 147537 | MicrobeDB.jp |
Eurotiomycetes | class(綱) | 147545 | MicrobeDB.jp |
Taphrinomycotina | subphylum(亜門) | 451866 | MicrobeDB.jp |
Chlorophyta | phylum(門) | 3041 | MicrobeDB.jp |
Rhodophyta | phylum(門) | 2763 | MicrobeDB.jp |
Viridiplantae | kingdom(界) | 33090 | PGDBj |
MicrobeDB.jpの真核生物サブセットを取得するSPARQL
DEFINE sql:select-option "order" PREFIX asm: <http://www.ncbi.nlm.nih.gov/assembly/> PREFIX tax: <http://identifiers.org/taxonomy/> select * FROM <http://togogenome.org/graph/taxonomy> FROM <http://togogenome.org/graph/assembly_report> WHERE { values ?taxon_root {tax:147537 tax:147545 tax:451866 tax:3041 tax: 2763} # For MicrobeDB.jp #values ?taxon_root {tax:1117} #For CyanoBase #values ?taxon_root {tax:33090} #For PGDBj #values ?category {"representative genome"}. values ?version_status {"latest"}. ?taxon_root a <http://ddbj.nig.ac.jp/ontologies/taxonomy/Taxon> . ?taxon rdfs:subClassOf* ?taxon_root. ?assembly asm:taxon ?taxon; asm:refseq_category ?category; asm:asm_name ?name; asm:assembly_id ?id; asm:assembly_level ?level; asm:bioproject ?bioproject; asm:bioproject_accession ?bioproject_accession; asm:biosample_accession ?biosample_accession; asm:gbrs_paired_asm ?gbrs_paired_asm; asm:genome_rep ?rep; asm:infraspecific_name ?infraspecific_name; asm:isolate ?isolate; asm:organism_name ?organism_name; asm:paired_asm_comp ?paired_asm_comp; asm:release_date ?release_date; asm:release_type ?release_type; asm:species_taxid ?species_taxid; asm:submitter ?submitter; asm:tax_id ?tax_id; asm:taxon ?taxon; asm:version_status ?version_status; asm:wgs_master ?wgs_master; rdfs:seeAlso ?link. } ORDER BY ?taxon_root
PGDBjの植物サブセットを取得するSPARQL
DEFINE sql:select-option "order" PREFIX asm: <http://www.ncbi.nlm.nih.gov/assembly/> PREFIX tax: <http://identifiers.org/taxonomy/> select * FROM <http://togogenome.org/graph/taxonomy> FROM <http://togogenome.org/graph/assembly_report> WHERE { #values ?taxon_root {tax:147537 tax:147545 tax:451866 tax:3041 tax: 2763} # For MicrobeDB.jp #values ?taxon_root {tax:1117} #For CyanoBase values ?taxon_root {tax:33090} #For PGDBj #values ?category {"representative genome"}. values ?version_status {"latest"}. ?taxon_root a <http://ddbj.nig.ac.jp/ontologies/taxonomy/Taxon> . ?taxon rdfs:subClassOf* ?taxon_root. ?assembly asm:taxon ?taxon; asm:refseq_category ?category; asm:asm_name ?name; asm:assembly_id ?id; asm:assembly_level ?level; asm:bioproject ?bioproject; asm:bioproject_accession ?bioproject_accession; asm:biosample_accession ?biosample_accession; asm:gbrs_paired_asm ?gbrs_paired_asm; asm:genome_rep ?rep; asm:infraspecific_name ?infraspecific_name; asm:isolate ?isolate; asm:organism_name ?organism_name; asm:paired_asm_comp ?paired_asm_comp; asm:release_date ?release_date; asm:release_type ?release_type; asm:species_taxid ?species_taxid; asm:submitter ?submitter; asm:tax_id ?tax_id; asm:taxon ?taxon; asm:version_status ?version_status; asm:wgs_master ?wgs_master; rdfs:seeAlso ?link. } ORDER BY ?taxon_root
関連情報
- TogoGenome更新系 SPARQLthon26/TogoGenome
- CyanoBase更新系 SPARQLthon26/CyanoBase
- MicrobeDB.jp 対応真核ゲノム調査 SPARQLthon20/MicrobeDB.jp
- データベースリスト取得 SPARQLthon21/Organism#データベースカタログ
- assembly_reports.ttl開発 SPARQLthon22/AssemblyReports
- ASSEMBLY_REPORTS更新情報