SPARQLthon30/GenomeDataSubset

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(クオリティーチェック項目)
(今後の課題)
 
(間の36版分が非表示)
1行: 1行:
 +
= ゲノムリファレンス =
 +
== 目的 ==
 +
RefSeqゲノムRDFの4者間(TogoGenome, MBGD,遺伝研グループ, MicrobeDB.jp)での統一、INSDC由来のゲノム情報の拡張
-
== クオリティーチェック ==
+
== 作業内容 ==
 +
MBGDのゲノム選抜条件のチェック項目の確認および対応
 +
 
 +
== MBGDデータ分類条件 ==
 +
# assembly_report refseqあり/なし
 +
# MBGDでCompleteとして登録
 +
# Assembly levelによる分類
 +
# クオリティチェック1(真核・原核ゲノム共通)
 +
#* gap割合 < 25%
 +
#* CDSの数が十分にある
 +
#* unlocalizedの割合 < 25 %
 +
# クオリティチェック2(原核ゲノムのみ)
 +
#* seq中のNの数 < 10000
 +
# クオリティチェック3(原核ゲノムのみ)
 +
#* Contig数 < 2000
 +
#* CDS数 > 0
 +
#* CDS/genome length (kb) < 0.2
 +
# クオリティチェック4(真核ゲノムのみ)
 +
#* Contig数 < 2000
 +
#* CDS数 > 0
 +
 
 +
真核、原核生物で4条件、変わる可能性あり
 +
 
 +
=== 取得方法の調査 ===
{|- class="wikitable sortable"
{|- class="wikitable sortable"
!チェック項目
!チェック項目
-
!ファイル
 
!ソース
!ソース
 +
!データ
!対応
!対応
|-
|-
|MBGDでCompleteとして登録
|MBGDでCompleteとして登録
-
|?
+
|http://mbgd.genome.ad.jp/htbin/genomelist
|
|
-
|【確認】
+
|取りこぼしを確認
|-
|-
|Assembly levelによる分類
|Assembly levelによる分類
-
|assembly_summary_*.txt
+
|ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt<br />ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_genbank.txt
|assembly_level
|assembly_level
|【済】
|【済】
|-
|-
|gap割合
|gap割合
-
|assembly_stats.txt
+
|ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt
|all ungapped-length/all total-length
|all ungapped-length/all total-length
|assembly_statsをRDF化
|assembly_statsをRDF化
25行: 51行:
|sequence entries
|sequence entries
|CDS features
|CDS features
-
|【確認】rdf変換時にカウント
+
|<strike>【相談】rdf変換時にカウント</strike> → '''genome_reports.ttlからデータ取得'''
|-
|-
|unlocalizedの割合
|unlocalizedの割合
-
|*_assembly_stats.txt
+
|ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt
|unlocalized-scaffold total-length/all total-length
|unlocalized-scaffold total-length/all total-length
|assembly_statsをRDF化
|assembly_statsをRDF化
|-
|-
|seq中のNの数
|seq中のNの数
-
|*_assembly_stats.txt (or sequence entry#sequence)
+
|ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt<br />or sequence entries
|all total-gap-length
|all total-gap-length
-
|assembly_statsをRDF化
+
|assembly_statsをRDF化?<br />【確認】seq中のNのカウント方法 → all total-gap-length から取得
|-
|-
|Contig数
|Contig数
-
|*_assembly_stats.txt
+
|ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt
|all contig-count
|all contig-count
|assembly_statsをRDF化
|assembly_statsをRDF化
|-
|-
|CDS/genome length (kb)
|CDS/genome length (kb)
-
|sequence entries+ *_assembly_stats.txt
+
|ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt<br />sequence entries
|
|
-
|【確認】
+
|assembly_statsをRDF化+'''genome_reports.ttl'''
|}
|}
 +
 +
* SPARQLthon31にてGenes, Proteins数の情報を取得する方法の調査および配列中のN数の取得先を確認し、今後の方針を確認した。4/2
 +
 +
== assembly_report2ttl.rb対応 ==
 +
* assembly_summary_genbank.txtも入力し、リスト取得に追加 →
 +
* assembly_reports2ttl.rbでstatファイル情報もRDF変換 → allのみ対応した
 +
* rdf:type, asm:wasDerivedFrom を追加
 +
 +
== genome_reports2ttl.rb対応 ==
 +
Genes, Proteins数の情報を取得するため [[SPARQLthon21/Organism#NCBI.2FGenome_Reports]] で開発したgenome_reports2ttl.rbを利用する。
 +
 +
== RDFサンプル ==
 +
=== assembly_reports.ttl ===
 +
<pre>
 +
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
 +
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
 +
@prefix sio: <http://semanticscience.org/resource/> .
 +
@prefix asm: <http://www.ncbi.nlm.nih.gov/assembly/> .
 +
 +
 +
[
 +
        rdf:type asm:Assembly_Database_Entry ;
 +
        rdf:type <http://identifiers.org/insdc> ;
 +
        asm:wasDerivedFrom "assembly_summary_genbank.txt" ;
 +
        asm:assembly_id "GCF_000001215.2" ;
 +
        asm:bioproject_accession        "PRJNA164" ;
 +
        asm:bioproject  <http://identifiers.org/bioproject/PRJNA164> ;
 +
        asm:biosample_accession "" ;
 +
        asm:biosample  <http://identifiers.org/biosample/> ;
 +
        asm:wgs_master  "AABU00000000.1" ;
 +
        asm:refseq_category    "na" ;
 +
        asm:tax_id      "7227" ;
 +
        asm:taxon      <http://identifiers.org/taxonomy/7227> ;
 +
        asm:species_taxid      "7227" ;
 +
        asm:organism_name      "Drosophila melanogaster" ;
 +
        asm:infraspecific_name  "" ;
 +
        asm:isolate    "" ;
 +
        asm:version_status      "replaced" ;
 +
        asm:assembly_level      "Chromosome" ;
 +
        asm:release_type        "Major" ;
 +
        asm:genome_rep  "Full" ;
 +
        asm:release_date        "2007/10/22" ;
 +
        asm:asm_name    "Release 5" ;
 +
        asm:submitter  "" ;
 +
        asm:gbrs_paired_asm    "GCA_000001215.2" ;
 +
        asm:paired_asm_comp    "different" ;
 +
        asm:ftp_path    "na"; #only prokaryotes
 +
        rdfs:seeAlso    asm:GCF_000001215.2 ;
 +
        asm:total-length        139485381 ;
 +
        asm:spanned-gaps        579 ;
 +
        asm:unspanned-gaps      0 ;
 +
        asm:region-count        0 ;
 +
        asm:scaffold-count      2479 ;
 +
        asm:scaffold-N50        23011544 ;
 +
        asm:scaffold-L50        3 ;
 +
        asm:scaffold-N75        21146708 ;
 +
        asm:scaffold-N90        2517507 ;
 +
        asm:contig-count        3058 ;
 +
        asm:contig-N50  21485538 ;
 +
        asm:total-gap-length    2659325 ;
 +
        asm:molecule-count      8 ;
 +
        asm:top-level-count    2480 ;
 +
        asm:sequnece    [
 +
                asm:sequence_name      "X" ;
 +
                asm:sequence_role      "assembled-molecule" ;
 +
                asm:assigned_molecule  "X" ;
 +
.
 +
.
 +
.
 +
</pre>
 +
 +
== 今後の作業 ==
 +
# genome_reports2ttl.rbを更新系にのせる
 +
# RDFをepに投入後、MBGDの分類フローに従って、SPARQLでゲノムリストを取得する
 +
# MBGDへのゲノムとの差分をとる
 +
# PGDBjとの連携
== 関連 ==
== 関連 ==
 +
* [[SPARQLthon22/AssemblyReports]]
* [[SPARQLthon26/GenomeDataSubset]]
* [[SPARQLthon26/GenomeDataSubset]]
 +
 +
= ID間のリンクセットRDF =
 +
* ソースの取得からRDFへの変換までの仕組みを開発
 +
* assembly_reportsのソース取得の高速化、データ転送
 +
* リンクセットRDFを生成する二項関係をタブ区切りファイルで出力
 +
 +
=== Assembly Reportsに含まれるassembly_id関連リンク ===
 +
* asm:assembly_id "GCF_000001215.2" ;
 +
** asm:bioproject_accession "PRJNA164" ;
 +
** asm:biosample_accession "" ;
 +
** asm:tax_id "7227" ;
 +
** asm:gbrs_paired_asm "GCA_000001215.2" ;
 +
** asm:genbank_accession "AE014298.4" ;
 +
** asm:refseq_accession "NC_004354.3" ;
 +
 +
=== タブ区切りファイル ===
 +
{|- class="wikitable"
 +
!type
 +
!id
 +
!type
 +
!id
 +
|-
 +
|assembly
 +
|GCF_000001215.2
 +
|bioproject
 +
|PRJNA164
 +
|-
 +
|assembly
 +
|GCF_000001215.2
 +
|biosample
 +
|
 +
|-
 +
|assembly
 +
|GCF_000001215.2
 +
|taxonomy
 +
|7227
 +
|-
 +
|assembly
 +
|GCF_000001215.2
 +
|assembly
 +
|GCA_000001215.2
 +
|-
 +
|assembly
 +
|GCF_000001215.2
 +
|genbank
 +
|AE014298.4
 +
|-
 +
|assembly
 +
|GCF_000001215.2
 +
|refseq
 +
|NC_004354.3
 +
|-
 +
|assembly
 +
|GCF_000001215.2
 +
|...
 +
|...
 +
|}
 +
 +
=== 今後の課題 ===
 +
* RDFデータモデル
 +
* idorgのnamespace内でさらにID体系が複数あるものの取り扱い 例) insdc.sra
 +
* RDFコンバータースクリプトの高速化
 +
* 対応すべきデータセットの検討

2015年4月3日 (金) 01:52時点における最新版

目次

ゲノムリファレンス

目的

RefSeqゲノムRDFの4者間(TogoGenome, MBGD,遺伝研グループ, MicrobeDB.jp)での統一、INSDC由来のゲノム情報の拡張

作業内容

MBGDのゲノム選抜条件のチェック項目の確認および対応

MBGDデータ分類条件

  1. assembly_report refseqあり/なし
  2. MBGDでCompleteとして登録
  3. Assembly levelによる分類
  4. クオリティチェック1(真核・原核ゲノム共通)
    • gap割合 < 25%
    • CDSの数が十分にある
    • unlocalizedの割合 < 25 %
  5. クオリティチェック2(原核ゲノムのみ)
    • seq中のNの数 < 10000
  6. クオリティチェック3(原核ゲノムのみ)
    • Contig数 < 2000
    • CDS数 > 0
    • CDS/genome length (kb) < 0.2
  7. クオリティチェック4(真核ゲノムのみ)
    • Contig数 < 2000
    • CDS数 > 0

真核、原核生物で4条件、変わる可能性あり

取得方法の調査

チェック項目 ソース データ 対応
MBGDでCompleteとして登録 http://mbgd.genome.ad.jp/htbin/genomelist 取りこぼしを確認
Assembly levelによる分類 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt
ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_genbank.txt
assembly_level 【済】
gap割合 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt all ungapped-length/all total-length assembly_statsをRDF化
CDS数 sequence entries CDS features 【相談】rdf変換時にカウントgenome_reports.ttlからデータ取得
unlocalizedの割合 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt unlocalized-scaffold total-length/all total-length assembly_statsをRDF化
seq中のNの数 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt
or sequence entries
all total-gap-length assembly_statsをRDF化?
【確認】seq中のNのカウント方法 → all total-gap-length から取得
Contig数 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt all contig-count assembly_statsをRDF化
CDS/genome length (kb) ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt
sequence entries
assembly_statsをRDF化+genome_reports.ttl
  • SPARQLthon31にてGenes, Proteins数の情報を取得する方法の調査および配列中のN数の取得先を確認し、今後の方針を確認した。4/2

assembly_report2ttl.rb対応

  • assembly_summary_genbank.txtも入力し、リスト取得に追加 →
  • assembly_reports2ttl.rbでstatファイル情報もRDF変換 → allのみ対応した
  • rdf:type, asm:wasDerivedFrom を追加

genome_reports2ttl.rb対応

Genes, Proteins数の情報を取得するため SPARQLthon21/Organism#NCBI.2FGenome_Reports で開発したgenome_reports2ttl.rbを利用する。

RDFサンプル

assembly_reports.ttl

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix sio: <http://semanticscience.org/resource/> .
@prefix asm: <http://www.ncbi.nlm.nih.gov/assembly/> .


[
        rdf:type asm:Assembly_Database_Entry ;
        rdf:type <http://identifiers.org/insdc> ;
        asm:wasDerivedFrom "assembly_summary_genbank.txt" ;
        asm:assembly_id "GCF_000001215.2" ;
        asm:bioproject_accession        "PRJNA164" ;
        asm:bioproject  <http://identifiers.org/bioproject/PRJNA164> ;
        asm:biosample_accession "" ;
        asm:biosample   <http://identifiers.org/biosample/> ;
        asm:wgs_master  "AABU00000000.1" ;
        asm:refseq_category     "na" ;
        asm:tax_id      "7227" ;
        asm:taxon       <http://identifiers.org/taxonomy/7227> ;
        asm:species_taxid       "7227" ;
        asm:organism_name       "Drosophila melanogaster" ;
        asm:infraspecific_name  "" ;
        asm:isolate     "" ;
        asm:version_status      "replaced" ;
        asm:assembly_level      "Chromosome" ;
        asm:release_type        "Major" ;
        asm:genome_rep  "Full" ;
        asm:release_date        "2007/10/22" ;
        asm:asm_name    "Release 5" ;
        asm:submitter   "" ;
        asm:gbrs_paired_asm     "GCA_000001215.2" ;
        asm:paired_asm_comp     "different" ;
        asm:ftp_path    "na"; #only prokaryotes
        rdfs:seeAlso    asm:GCF_000001215.2 ;
        asm:total-length        139485381 ;
        asm:spanned-gaps        579 ;
        asm:unspanned-gaps      0 ;
        asm:region-count        0 ;
        asm:scaffold-count      2479 ;
        asm:scaffold-N50        23011544 ;
        asm:scaffold-L50        3 ;
        asm:scaffold-N75        21146708 ;
        asm:scaffold-N90        2517507 ;
        asm:contig-count        3058 ;
        asm:contig-N50  21485538 ;
        asm:total-gap-length    2659325 ;
        asm:molecule-count      8 ;
        asm:top-level-count     2480 ;
        asm:sequnece    [
                asm:sequence_name       "X" ;
                asm:sequence_role       "assembled-molecule" ;
                asm:assigned_molecule   "X" ;
.
.
.

今後の作業

  1. genome_reports2ttl.rbを更新系にのせる
  2. RDFをepに投入後、MBGDの分類フローに従って、SPARQLでゲノムリストを取得する
  3. MBGDへのゲノムとの差分をとる
  4. PGDBjとの連携

関連

ID間のリンクセットRDF

  • ソースの取得からRDFへの変換までの仕組みを開発
  • assembly_reportsのソース取得の高速化、データ転送
  • リンクセットRDFを生成する二項関係をタブ区切りファイルで出力

Assembly Reportsに含まれるassembly_id関連リンク

  • asm:assembly_id "GCF_000001215.2" ;
    • asm:bioproject_accession "PRJNA164" ;
    • asm:biosample_accession "" ;
    • asm:tax_id "7227" ;
    • asm:gbrs_paired_asm "GCA_000001215.2" ;
    • asm:genbank_accession "AE014298.4" ;
    • asm:refseq_accession "NC_004354.3" ;

タブ区切りファイル

type id type id
assembly GCF_000001215.2 bioproject PRJNA164
assembly GCF_000001215.2 biosample
assembly GCF_000001215.2 taxonomy 7227
assembly GCF_000001215.2 assembly GCA_000001215.2
assembly GCF_000001215.2 genbank AE014298.4
assembly GCF_000001215.2 refseq NC_004354.3
assembly GCF_000001215.2 ... ...

今後の課題

  • RDFデータモデル
  • idorgのnamespace内でさらにID体系が複数あるものの取り扱い 例) insdc.sra
  • RDFコンバータースクリプトの高速化
  • 対応すべきデータセットの検討
個人用ツール