提供:TogoWiki
目的
MicrobeDB.jpの真核ゲノム拡張対応およびPGDBjのマーカー情報RDF化に伴う対象ゲノム情報を取得
- MBGD でも真核・原核サブセットの取得が必要
- CyanoBaseの更新系にも利用
方法と課題
RefSeqゲノム情報取得
- TogoGenome/Refseq RDFのサブセットを取得する
- NCBI genomes/assembly_reportsを起点にTogoGenomeで更新系を準備中 → KEYWORD行のトリプルのpredicateで利用している#fragmentのエンコード問題が解決すると真核ゲノムRDF取得も対応
- 片山さん開発したRefSeq の RDF データの生物系統ダウンロード TogoGenomeRDFDownload
RefSeq以外のデータベースからのゲノム情報取得
- 外部データベースのゲノムエントリおよびメタデータのリストの整理 → とりあえず、スプレッドシートで共有
- assembly_reportsのRDFのリンクと一意に関連づけられる情報を含める、候補)Taxonomy id, BioProject id, BioSample id, ... 件数が少ないので全部?
今後の課題
- 各DBが多様な形式で公開しているGFF3, TSVなどゲノムアノテーションのRDF化
- RefSeqと外部データベースのゲノムアノテーション情報のRDFを共存させるか?
対象の生物分類情報
taxon
| rank
| taxonomy id
| 対象データベース
|
Saccharomycotina
| subphylum(亜門)
| 147537
| MicrobeDB.jp
|
Eurotiomycetes
| class(綱)
| 147545
| MicrobeDB.jp
|
Taphrinomycotina
| subphylum(亜門)
| 451866
| MicrobeDB.jp
|
Chlorophyta
| phylum(門)
| 3041
| MicrobeDB.jp
|
Rhodophyta
| phylum(門)
| 2763
| MicrobeDB.jp
|
Viridiplantae
| kingdom(界)
| 33090
| PGDBj
|
MicrobeDB.jpの真核生物サブセットを取得するSPARQL
DEFINE sql:select-option "order"
PREFIX asm: <http://www.ncbi.nlm.nih.gov/assembly/>
PREFIX tax: <http://identifiers.org/taxonomy/>
select *
FROM <http://togogenome.org/graph/taxonomy>
FROM <http://togogenome.org/graph/assembly_report>
WHERE
{
values ?taxon_root {tax:147537 tax:147545 tax:451866 tax:3041 tax: 2763} # For MicrobeDB.jp
#values ?taxon_root {tax:1117} #For CyanoBase
#values ?taxon_root {tax:33090} #For PGDBj
#values ?category {"representative genome"}.
values ?version_status {"latest"}.
?taxon_root a <http://ddbj.nig.ac.jp/ontologies/taxonomy/Taxon> .
?taxon rdfs:subClassOf* ?taxon_root.
?assembly asm:taxon ?taxon;
asm:refseq_category ?category;
asm:asm_name ?name;
asm:assembly_id ?id;
asm:assembly_level ?level;
asm:bioproject ?bioproject;
asm:bioproject_accession ?bioproject_accession;
asm:biosample_accession ?biosample_accession;
asm:gbrs_paired_asm ?gbrs_paired_asm;
asm:genome_rep ?rep;
asm:infraspecific_name ?infraspecific_name;
asm:isolate ?isolate;
asm:organism_name ?organism_name;
asm:paired_asm_comp ?paired_asm_comp;
asm:release_date ?release_date;
asm:release_type ?release_type;
asm:species_taxid ?species_taxid;
asm:submitter ?submitter;
asm:tax_id ?tax_id;
asm:taxon ?taxon;
asm:version_status ?version_status;
asm:wgs_master ?wgs_master;
rdfs:seeAlso ?link.
}
ORDER BY ?taxon_root
関連情報