SPARQLthon30/GenomeDataSubset

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(クオリティーチェック条件)
11行: 11行:
#* gap割合 < 25%
#* gap割合 < 25%
#* CDSの数が十分にある
#* CDSの数が十分にある
-
#* unlocalizedの割合 < 25 %"
+
#* unlocalizedの割合 < 25 %
# クオリティチェック2(原核ゲノムのみ)
# クオリティチェック2(原核ゲノムのみ)
#* seq中のNの数 < 10000
#* seq中のNの数 < 10000
20行: 20行:
# クオリティチェック4(真核ゲノムのみ)
# クオリティチェック4(真核ゲノムのみ)
#* Contig数 < 2000
#* Contig数 < 2000
-
#* CDS数 > 0"
+
#* CDS数 > 0
### ソースと対応
### ソースと対応
{|- class="wikitable sortable"
{|- class="wikitable sortable"

2015年3月13日 (金) 04:53時点における版

目次

目的

RefSeqゲノムRDFの4者間(TogoGenome, MBGD,遺伝研グループ, MicrobeDB.jp)での統一

作業内容

MBGDのゲノム選抜条件のチェック項目と対応を確認


クオリティーチェック条件

真核、原核生物で4条件

  1. クオリティチェック1(真核・原核ゲノム共通)
    • gap割合 < 25%
    • CDSの数が十分にある
    • unlocalizedの割合 < 25 %
  2. クオリティチェック2(原核ゲノムのみ)
    • seq中のNの数 < 10000
  3. クオリティチェック3(原核ゲノムのみ)
    • Contig数 < 2000
    • CDS数 > 0
    • CDS/genome length (kb) < 0.2"
  4. クオリティチェック4(真核ゲノムのみ)
    • Contig数 < 2000
    • CDS数 > 0
      1. ソースと対応
チェック項目 ファイル ソース 対応
MBGDでCompleteとして登録 ? 【確認】
Assembly levelによる分類 assembly_summary_*.txt assembly_level 【済】
gap割合 assembly_stats.txt all ungapped-length/all total-length assembly_statsをRDF化
CDS数 sequence entries CDS features 【相談】rdf変換時にカウント
unlocalizedの割合 *_assembly_stats.txt unlocalized-scaffold total-length/all total-length assembly_statsをRDF化
seq中のNの数 *_assembly_stats.txt (or sequence entry#sequence) all total-gap-length assembly_statsをRDF化
Contig数 *_assembly_stats.txt all contig-count assembly_statsをRDF化
CDS/genome length (kb) sequence entries+ *_assembly_stats.txt assembly_statsをRDF化+rdf変換時にカウント

関連

個人用ツール