SPARQLthon30/GenomeDataSubset

提供:TogoWiki

移動: 案内, 検索

目次

ゲノムリファレンス

目的

RefSeqゲノムRDFの4者間(TogoGenome, MBGD,遺伝研グループ, MicrobeDB.jp)での統一、INSDC由来のゲノム情報の拡張

作業内容

MBGDのゲノム選抜条件のチェック項目の確認および対応

MBGDデータ分類条件

  1. assembly_report refseqあり/なし
  2. MBGDでCompleteとして登録
  3. Assembly levelによる分類
  4. クオリティチェック1(真核・原核ゲノム共通)
    • gap割合 < 25%
    • CDSの数が十分にある
    • unlocalizedの割合 < 25 %
  5. クオリティチェック2(原核ゲノムのみ)
    • seq中のNの数 < 10000
  6. クオリティチェック3(原核ゲノムのみ)
    • Contig数 < 2000
    • CDS数 > 0
    • CDS/genome length (kb) < 0.2
  7. クオリティチェック4(真核ゲノムのみ)
    • Contig数 < 2000
    • CDS数 > 0

真核、原核生物で4条件、変わる可能性あり

取得方法の調査

チェック項目 ソース データ 対応
MBGDでCompleteとして登録 http://mbgd.genome.ad.jp/htbin/genomelist 取りこぼしを確認
Assembly levelによる分類 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt
ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_genbank.txt
assembly_level 【済】
gap割合 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt all ungapped-length/all total-length assembly_statsをRDF化
CDS数 sequence entries CDS features 【相談】rdf変換時にカウントgenome_reports.ttlからデータ取得
unlocalizedの割合 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt unlocalized-scaffold total-length/all total-length assembly_statsをRDF化
seq中のNの数 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt
or sequence entries
all total-gap-length assembly_statsをRDF化?
【確認】seq中のNのカウント方法 → all total-gap-length から取得
Contig数 ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt all contig-count assembly_statsをRDF化
CDS/genome length (kb) ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt
sequence entries
assembly_statsをRDF化+genome_reports.ttl
  • SPARQLthon31にてGenes, Proteins数の情報を取得する方法の調査および配列中のN数の取得先を確認し、今後の方針を確認した。4/2

assembly_report2ttl.rb対応

  • assembly_summary_genbank.txtも入力し、リスト取得に追加 →
  • assembly_reports2ttl.rbでstatファイル情報もRDF変換 → allのみ対応した
  • rdf:type, asm:wasDerivedFrom を追加

genome_reports2ttl.rb対応

Genes, Proteins数の情報を取得するため SPARQLthon21/Organism#NCBI.2FGenome_Reports で開発したgenome_reports2ttl.rbを利用する。

RDFサンプル

assembly_reports.ttl

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix sio: <http://semanticscience.org/resource/> .
@prefix asm: <http://www.ncbi.nlm.nih.gov/assembly/> .


[
        rdf:type asm:Assembly_Database_Entry ;
        rdf:type <http://identifiers.org/insdc> ;
        asm:wasDerivedFrom "assembly_summary_genbank.txt" ;
        asm:assembly_id "GCF_000001215.2" ;
        asm:bioproject_accession        "PRJNA164" ;
        asm:bioproject  <http://identifiers.org/bioproject/PRJNA164> ;
        asm:biosample_accession "" ;
        asm:biosample   <http://identifiers.org/biosample/> ;
        asm:wgs_master  "AABU00000000.1" ;
        asm:refseq_category     "na" ;
        asm:tax_id      "7227" ;
        asm:taxon       <http://identifiers.org/taxonomy/7227> ;
        asm:species_taxid       "7227" ;
        asm:organism_name       "Drosophila melanogaster" ;
        asm:infraspecific_name  "" ;
        asm:isolate     "" ;
        asm:version_status      "replaced" ;
        asm:assembly_level      "Chromosome" ;
        asm:release_type        "Major" ;
        asm:genome_rep  "Full" ;
        asm:release_date        "2007/10/22" ;
        asm:asm_name    "Release 5" ;
        asm:submitter   "" ;
        asm:gbrs_paired_asm     "GCA_000001215.2" ;
        asm:paired_asm_comp     "different" ;
        asm:ftp_path    "na"; #only prokaryotes
        rdfs:seeAlso    asm:GCF_000001215.2 ;
        asm:total-length        139485381 ;
        asm:spanned-gaps        579 ;
        asm:unspanned-gaps      0 ;
        asm:region-count        0 ;
        asm:scaffold-count      2479 ;
        asm:scaffold-N50        23011544 ;
        asm:scaffold-L50        3 ;
        asm:scaffold-N75        21146708 ;
        asm:scaffold-N90        2517507 ;
        asm:contig-count        3058 ;
        asm:contig-N50  21485538 ;
        asm:total-gap-length    2659325 ;
        asm:molecule-count      8 ;
        asm:top-level-count     2480 ;
        asm:sequnece    [
                asm:sequence_name       "X" ;
                asm:sequence_role       "assembled-molecule" ;
                asm:assigned_molecule   "X" ;
.
.
.

今後の作業

  1. genome_reports2ttl.rbを更新系にのせる
  2. RDFをepに投入後、MBGDの分類フローに従って、SPARQLでゲノムリストを取得する
  3. MBGDへのゲノムとの差分をとる
  4. PGDBjとの連携

関連

ID間のリンクセットRDF

  • ソースの取得からRDFへの変換までの仕組みを開発
  • assembly_reportsのソース取得の高速化、データ転送
  • リンクセットRDFを生成する二項関係をタブ区切りファイルで出力

Assembly Reportsに含まれるassembly_id関連リンク

  • asm:assembly_id "GCF_000001215.2" ;
    • asm:bioproject_accession "PRJNA164" ;
    • asm:biosample_accession "" ;
    • asm:tax_id "7227" ;
    • asm:gbrs_paired_asm "GCA_000001215.2" ;
    • asm:genbank_accession "AE014298.4" ;
    • asm:refseq_accession "NC_004354.3" ;

タブ区切りファイル

type id type id
assembly GCF_000001215.2 bioproject PRJNA164
assembly GCF_000001215.2 biosample
assembly GCF_000001215.2 taxonomy 7227
assembly GCF_000001215.2 assembly GCA_000001215.2
assembly GCF_000001215.2 genbank AE014298.4
assembly GCF_000001215.2 refseq NC_004354.3
assembly GCF_000001215.2 ... ...

今後の課題

  • RDFデータモデル
  • idorgのnamespace内でさらにID体系が複数あるものの取り扱い 例) insdc.sra
  • RDFコンバータースクリプトの高速化
  • 対応すべきデータセットの検討