SPARQLthon30/GenomeDataSubset

提供:TogoWiki

2015年3月13日 (金) 05:17時点におけるTfuji (トーク | 投稿記録)による版
移動: 案内, 検索

目次

目的

RefSeqゲノムRDFの4者間(TogoGenome, MBGD,遺伝研グループ, MicrobeDB.jp)での統一

作業内容

MBGDのゲノム選抜条件のチェック項目の確認および対応

クオリティーチェック条件

真核、原核生物で4条件、変わる可能性あり

  1. クオリティチェック1(真核・原核ゲノム共通)
    • gap割合 < 25%
    • CDSの数が十分にある
    • unlocalizedの割合 < 25 %
  2. クオリティチェック2(原核ゲノムのみ)
    • seq中のNの数 < 10000
  3. クオリティチェック3(原核ゲノムのみ)
    • Contig数 < 2000
    • CDS数 > 0
    • CDS/genome length (kb) < 0.2
  4. クオリティチェック4(真核ゲノムのみ)
    • Contig数 < 2000
    • CDS数 > 0

取得方法の調査

チェック項目 ソース データ 対応
MBGDでCompleteとして登録 http://mbgd.genome.ad.jp/htbin/genomelist 【確認】
Assembly levelによる分類 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt
ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_genbank.txt
assembly_level 【済】
gap割合 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt all ungapped-length/all total-length assembly_statsをRDF化
CDS数 sequence entries CDS features 【相談】rdf変換時にカウント
unlocalizedの割合 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt unlocalized-scaffold total-length/all total-length assembly_statsをRDF化
seq中のNの数 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt
or sequence entries
all total-gap-length assembly_statsをRDF化?
【確認】seq中のNのカウント方法
Contig数 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt all contig-count assembly_statsをRDF化
CDS/genome length (kb) ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt
sequence entries
assembly_statsをRDF化+rdf変換時にカウント

関連

個人用ツール