SPARQLthon26/GenomeDataSubset

提供:TogoWiki

移動: 案内, 検索

目次

目的

MicrobeDB.jpの真核ゲノム拡張対応およびPGDBjのマーカー情報RDF化に伴う対象ゲノム情報を取得

  • MBGD でも真核・原核サブセットの取得が必要
  • CyanoBaseの更新系にも利用

方法と課題

RefSeqゲノム情報取得

  • TogoGenome/Refseq RDFのサブセットを取得する

RefSeq以外のデータベースからのゲノム情報取得

  • 外部データベースのゲノムエントリおよびメタデータのリストの整理 → とりあえず、スプレッドシートで共有
    • assembly_reportsのRDFのリンクと一意に関連づけられる情報を含める、候補)Taxonomy id, BioProject id, BioSample id, ... 件数が少ないので全部?

今後の課題

  • 各DBが多様な形式で公開しているGFF3, TSVなどゲノムアノテーションのRDF化
    • RefSeqと外部データベースのゲノムアノテーション情報のRDFを共存させるか?

対象の生物分類情報

taxon rank taxonomy id 対象データベース
Saccharomycotina subphylum(亜門) 147537 MicrobeDB.jp
Eurotiomycetes class(綱) 147545 MicrobeDB.jp
Taphrinomycotina subphylum(亜門) 451866 MicrobeDB.jp
Chlorophyta phylum(門) 3041 MicrobeDB.jp
Rhodophyta phylum(門) 2763 MicrobeDB.jp
Viridiplantae kingdom(界) 33090 PGDBj

MicrobeDB.jpの真核生物サブセットを取得するSPARQL

DEFINE sql:select-option "order"

PREFIX asm: <http://www.ncbi.nlm.nih.gov/assembly/>
PREFIX tax: <http://identifiers.org/taxonomy/>

select  *
FROM <http://togogenome.org/graph/taxonomy>
FROM <http://togogenome.org/graph/assembly_report>
WHERE
{
values ?taxon_root {tax:147537 tax:147545 tax:451866 tax:3041 tax: 2763} # For MicrobeDB.jp
#values ?taxon_root {tax:1117} #For CyanoBase
#values ?taxon_root {tax:33090} #For PGDBj
#values ?category {"representative genome"}.
values ?version_status {"latest"}.

?taxon_root a <http://ddbj.nig.ac.jp/ontologies/taxonomy/Taxon> .
?taxon rdfs:subClassOf* ?taxon_root.
?assembly asm:taxon ?taxon;
 asm:refseq_category ?category;
 asm:asm_name ?name;
 asm:assembly_id ?id;
 asm:assembly_level ?level;
 asm:bioproject ?bioproject;
 asm:bioproject_accession ?bioproject_accession;
 asm:biosample_accession ?biosample_accession;
 asm:gbrs_paired_asm ?gbrs_paired_asm;
 asm:genome_rep ?rep;
 asm:infraspecific_name ?infraspecific_name;
 asm:isolate ?isolate;
 asm:organism_name ?organism_name;
 asm:paired_asm_comp ?paired_asm_comp;
 asm:release_date ?release_date;
 asm:release_type ?release_type;
 asm:species_taxid ?species_taxid;
 asm:submitter ?submitter;
 asm:tax_id ?tax_id;
 asm:taxon ?taxon;
 asm:version_status ?version_status;
 asm:wgs_master ?wgs_master;
 rdfs:seeAlso ?link.
}
ORDER BY ?taxon_root

PGDBjの植物サブセットを取得するSPARQL

DEFINE sql:select-option "order"

PREFIX asm: <http://www.ncbi.nlm.nih.gov/assembly/>
PREFIX tax: <http://identifiers.org/taxonomy/>

select  *
FROM <http://togogenome.org/graph/taxonomy>
FROM <http://togogenome.org/graph/assembly_report>
WHERE
{
#values ?taxon_root {tax:147537 tax:147545 tax:451866 tax:3041 tax: 2763} # For MicrobeDB.jp
#values ?taxon_root {tax:1117} #For CyanoBase
values ?taxon_root {tax:33090} #For PGDBj
#values ?category {"representative genome"}.
values ?version_status {"latest"}.

?taxon_root a <http://ddbj.nig.ac.jp/ontologies/taxonomy/Taxon> .
?taxon rdfs:subClassOf* ?taxon_root.
?assembly asm:taxon ?taxon;
 asm:refseq_category ?category;
 asm:asm_name ?name;
 asm:assembly_id ?id;
 asm:assembly_level ?level;
 asm:bioproject ?bioproject;
 asm:bioproject_accession ?bioproject_accession;
 asm:biosample_accession ?biosample_accession;
 asm:gbrs_paired_asm ?gbrs_paired_asm;
 asm:genome_rep ?rep;
 asm:infraspecific_name ?infraspecific_name;
 asm:isolate ?isolate;
 asm:organism_name ?organism_name;
 asm:paired_asm_comp ?paired_asm_comp;
 asm:release_date ?release_date;
 asm:release_type ?release_type;
 asm:species_taxid ?species_taxid;
 asm:submitter ?submitter;
 asm:tax_id ?tax_id;
 asm:taxon ?taxon;
 asm:version_status ?version_status;
 asm:wgs_master ?wgs_master;
 rdfs:seeAlso ?link.
}
ORDER BY ?taxon_root

関連情報