SPARQLthon26/GenomeDataSubset

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(目的)
(RefSeqゲノム情報取得)
7行: 7行:
=== RefSeqゲノム情報取得 ===
=== RefSeqゲノム情報取得 ===
* TogoGenome/Refseq RDFのサブセットを取得する
* TogoGenome/Refseq RDFのサブセットを取得する
-
** NCBI genomes/assembly_reportsを起点にTogoGenomeで更新系を準備中
+
** NCBI genomes/assembly_reportsを起点にTogoGenomeで更新系を準備中 → 真核ゲノムRDF生成についてはKEYWORD行のトリプルが解決すると実現
** 片山さん開発したRefSeq の RDF データの生物系統ダウンロード [[TogoGenomeRDFDownload]]
** 片山さん開発したRefSeq の RDF データの生物系統ダウンロード [[TogoGenomeRDFDownload]]
*** 例)シアノバクテリアのRefSeq RDFの一括取得 http://togogenome.org/download/refseq/1117
*** 例)シアノバクテリアのRefSeq RDFの一括取得 http://togogenome.org/download/refseq/1117

2014年11月18日 (火) 09:08時点における版

目次

目的

MicrobeDB.jpの真核ゲノム拡張対応およびPGDBjのマーカー情報RDF化に伴う対象ゲノム情報を取得

  • MBGD でも真核・原核サブセットの取得が必要
  • CyanoBaseの更新系にも利用

方法と課題

RefSeqゲノム情報取得

  • TogoGenome/Refseq RDFのサブセットを取得する
    • NCBI genomes/assembly_reportsを起点にTogoGenomeで更新系を準備中 → 真核ゲノムRDF生成についてはKEYWORD行のトリプルが解決すると実現
    • 片山さん開発したRefSeq の RDF データの生物系統ダウンロード TogoGenomeRDFDownload

RefSeq以外のデータベースからのゲノム情報取得

  • 外部データベースのゲノムエントリおよびメタデータのリストの整理 → とりあえず、スプレッドシートで共有
    • assembly_reportsのRDFのリンクと一意に関連づけられる情報を含める、候補)Taxonomy id, BioProject id, BioSample id, ... 件数が少ないので全部?

今後の課題

  • 各DBが多様な形式で公開しているGFF3, TSVなどゲノムアノテーションのRDF化
    • RefSeqと外部データベースのゲノムアノテーション情報のRDFを共存させるか?

対象の生物分類情報

taxon rank taxonomy id 対象データベース
Saccharomycotina subphylum(亜門) 147537 MicrobeDB.jp
Eurotiomycetes class(綱) 147545 MicrobeDB.jp
Taphrinomycotina subphylum(亜門) 451866 MicrobeDB.jp
Chlorophyta phylum(門) 3041 MicrobeDB.jp
Rhodophyta phylum(門) 2763 MicrobeDB.jp
Viridiplantae kingdom(界) 33090 PGDBj

関連情報

個人用ツール