SPARQLthon30/GenomeDataSubset

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(対応)
73行: 73行:
|}
|}
-
== assembly report対応 ==
+
== assembly_report.ttl対応 ==
-
* assembly_summary_genbank.txtも入力、リスト取得に追加
+
* assembly_summary_genbank.txtも入力、リスト取得に追加
-
* assembly_reports2ttl.rbでstatファイル情報もRDF変換
+
* assembly_reports2ttl.rbでstatファイル情報もRDF変換 → allのみ対応した
 +
* rdf:type, asm:wasDerivedFrom を追加
 +
== サンプルRDF ==
 +
<pre>
 +
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
 +
@prefix obo: <http://purl.obolibrary.org/obo/> .
 +
@prefix asm: <http://www.ncbi.nlm.nih.gov/assembly/> .
 +
 
 +
 
 +
[
 +
        rdf:type asm:Assembly_Database_Entry ;
 +
        asm:wasDerivedFrom "assembly_summary_genbank.txt" ;
 +
        asm:assembly_id "GCF_000001215.2" ;
 +
        asm:bioproject_accession        "PRJNA164" ;
 +
        asm:bioproject  <http://identifiers.org/bioproject/PRJNA164> ;
 +
        asm:biosample_accession "" ;
 +
        asm:biosample  <http://identifiers.org/biosample/> ;
 +
        asm:wgs_master  "AABU00000000.1" ;
 +
        asm:refseq_category    "na" ;
 +
        asm:tax_id      "7227" ;
 +
        asm:taxon      <http://identifiers.org/taxonomy/7227> ;
 +
        asm:species_taxid      "7227" ;
 +
        asm:organism_name      "Drosophila melanogaster" ;
 +
        asm:infraspecific_name  "" ;
 +
        asm:isolate    "" ;
 +
        asm:version_status      "replaced" ;
 +
        asm:assembly_level      "Chromosome" ;
 +
        asm:release_type        "Major" ;
 +
        asm:genome_rep  "Full" ;
 +
        asm:release_date        "2007/10/22" ;
 +
        asm:asm_name    "Release 5" ;
 +
        asm:submitter  "" ;
 +
        asm:gbrs_paired_asm    "GCA_000001215.2" ;
 +
        asm:paired_asm_comp    "different" ;
 +
        asm:ftp_path    "na"; #only prokaryotes
 +
        rdfs:seeAlso    asm:GCF_000001215.2 ;
 +
        asm:total-length        139485381 ;
 +
        asm:spanned-gaps        579 ;
 +
        asm:unspanned-gaps      0 ;
 +
        asm:region-count        0 ;
 +
        asm:scaffold-count      2479 ;
 +
        asm:scaffold-N50        23011544 ;
 +
        asm:scaffold-L50        3 ;
 +
        asm:scaffold-N75        21146708 ;
 +
        asm:scaffold-N90        2517507 ;
 +
        asm:contig-count        3058 ;
 +
        asm:contig-N50  21485538 ;
 +
        asm:total-gap-length    2659325 ;
 +
        asm:molecule-count      8 ;
 +
        asm:top-level-count    2480 ;
 +
        asm:sequnece    [
 +
                asm:sequence_name      "X" ;
 +
                asm:sequence_role      "assembled-molecule" ;
 +
                asm:assigned_molecule  "X" ;
 +
.
 +
.
 +
.
 +
</pre>
 +
 
== 関連 ==
== 関連 ==
* [[SPARQLthon22/AssemblyReports]]
* [[SPARQLthon22/AssemblyReports]]
* [[SPARQLthon26/GenomeDataSubset]]
* [[SPARQLthon26/GenomeDataSubset]]

2015年3月13日 (金) 07:14時点における版

目次

目的

RefSeqゲノムRDFの4者間(TogoGenome, MBGD,遺伝研グループ, MicrobeDB.jp)での統一

作業内容

MBGDのゲノム選抜条件のチェック項目の確認および対応

MBGDデータ分類条件

  1. assembly_report refseqあり/なし
  2. MBGDでCompleteとして登録
  3. Assembly levelによる分類
  4. クオリティチェック1(真核・原核ゲノム共通)
    • gap割合 < 25%
    • CDSの数が十分にある
    • unlocalizedの割合 < 25 %
  5. クオリティチェック2(原核ゲノムのみ)
    • seq中のNの数 < 10000
  6. クオリティチェック3(原核ゲノムのみ)
    • Contig数 < 2000
    • CDS数 > 0
    • CDS/genome length (kb) < 0.2
  7. クオリティチェック4(真核ゲノムのみ)
    • Contig数 < 2000
    • CDS数 > 0

真核、原核生物で4条件、変わる可能性あり

取得方法の調査

チェック項目 ソース データ 対応
MBGDでCompleteとして登録 http://mbgd.genome.ad.jp/htbin/genomelist 取りこぼしを確認
Assembly levelによる分類 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt
ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_genbank.txt
assembly_level 【済】
gap割合 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt all ungapped-length/all total-length assembly_statsをRDF化
CDS数 sequence entries CDS features 【相談】rdf変換時にカウント
unlocalizedの割合 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt unlocalized-scaffold total-length/all total-length assembly_statsをRDF化
seq中のNの数 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt
or sequence entries
all total-gap-length assembly_statsをRDF化?
【確認】seq中のNのカウント方法
Contig数 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt all contig-count assembly_statsをRDF化
CDS/genome length (kb) ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt
sequence entries
assembly_statsをRDF化+rdf変換時にカウント

assembly_report.ttl対応

  • assembly_summary_genbank.txtも入力、リスト取得に追加 →
  • assembly_reports2ttl.rbでstatファイル情報もRDF変換 → allのみ対応した
  • rdf:type, asm:wasDerivedFrom を追加

サンプルRDF

@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix obo: <http://purl.obolibrary.org/obo/> .
@prefix asm: <http://www.ncbi.nlm.nih.gov/assembly/> .


[
        rdf:type asm:Assembly_Database_Entry ;
        asm:wasDerivedFrom "assembly_summary_genbank.txt" ;
        asm:assembly_id "GCF_000001215.2" ;
        asm:bioproject_accession        "PRJNA164" ;
        asm:bioproject  <http://identifiers.org/bioproject/PRJNA164> ;
        asm:biosample_accession "" ;
        asm:biosample   <http://identifiers.org/biosample/> ;
        asm:wgs_master  "AABU00000000.1" ;
        asm:refseq_category     "na" ;
        asm:tax_id      "7227" ;
        asm:taxon       <http://identifiers.org/taxonomy/7227> ;
        asm:species_taxid       "7227" ;
        asm:organism_name       "Drosophila melanogaster" ;
        asm:infraspecific_name  "" ;
        asm:isolate     "" ;
        asm:version_status      "replaced" ;
        asm:assembly_level      "Chromosome" ;
        asm:release_type        "Major" ;
        asm:genome_rep  "Full" ;
        asm:release_date        "2007/10/22" ;
        asm:asm_name    "Release 5" ;
        asm:submitter   "" ;
        asm:gbrs_paired_asm     "GCA_000001215.2" ;
        asm:paired_asm_comp     "different" ;
        asm:ftp_path    "na"; #only prokaryotes
        rdfs:seeAlso    asm:GCF_000001215.2 ;
        asm:total-length        139485381 ;
        asm:spanned-gaps        579 ;
        asm:unspanned-gaps      0 ;
        asm:region-count        0 ;
        asm:scaffold-count      2479 ;
        asm:scaffold-N50        23011544 ;
        asm:scaffold-L50        3 ;
        asm:scaffold-N75        21146708 ;
        asm:scaffold-N90        2517507 ;
        asm:contig-count        3058 ;
        asm:contig-N50  21485538 ;
        asm:total-gap-length    2659325 ;
        asm:molecule-count      8 ;
        asm:top-level-count     2480 ;
        asm:sequnece    [
                asm:sequence_name       "X" ;
                asm:sequence_role       "assembled-molecule" ;
                asm:assigned_molecule   "X" ;
.
.
.


関連

個人用ツール