SPARQLthon30/GenomeDataSubset
提供:TogoWiki
目次 |
ゲノムリファレンス
目的
RefSeqゲノムRDFの4者間(TogoGenome, MBGD,遺伝研グループ, MicrobeDB.jp)での統一、INSDC由来のゲノム情報の拡張
作業内容
MBGDのゲノム選抜条件のチェック項目の確認および対応
MBGDデータ分類条件
- assembly_report refseqあり/なし
- MBGDでCompleteとして登録
- Assembly levelによる分類
- クオリティチェック1(真核・原核ゲノム共通)
- gap割合 < 25%
- CDSの数が十分にある
- unlocalizedの割合 < 25 %
- クオリティチェック2(原核ゲノムのみ)
- seq中のNの数 < 10000
- クオリティチェック3(原核ゲノムのみ)
- Contig数 < 2000
- CDS数 > 0
- CDS/genome length (kb) < 0.2
- クオリティチェック4(真核ゲノムのみ)
- Contig数 < 2000
- CDS数 > 0
真核、原核生物で4条件、変わる可能性あり
取得方法の調査
チェック項目 | ソース | データ | 対応 |
---|---|---|---|
MBGDでCompleteとして登録 | http://mbgd.genome.ad.jp/htbin/genomelist | 取りこぼしを確認 | |
Assembly levelによる分類 | ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_genbank.txt | assembly_level | 【済】 |
gap割合 | ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt | all ungapped-length/all total-length | assembly_statsをRDF化 |
CDS数 | sequence entries | CDS features | |
unlocalizedの割合 | ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt | unlocalized-scaffold total-length/all total-length | assembly_statsをRDF化 |
seq中のNの数 | ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt or sequence entries | all total-gap-length | assembly_statsをRDF化? 【確認】seq中のNのカウント方法 → all total-gap-length から取得 |
Contig数 | ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt | all contig-count | assembly_statsをRDF化 |
CDS/genome length (kb) | ftp://ftp.ncbi.nih.gov/genomes/ASSEMBLY_REPORTS/All/*_assembly_stats.txt sequence entries | assembly_statsをRDF化+genome_reports.ttl |
- SPARQLthon31にてGenes, Proteins数の情報を取得する方法の調査および配列中のN数の取得先を確認し、今後の方針を確認した。4/2
assembly_report2ttl.rb対応
- assembly_summary_genbank.txtも入力し、リスト取得に追加 →
- assembly_reports2ttl.rbでstatファイル情報もRDF変換 → allのみ対応した
- rdf:type, asm:wasDerivedFrom を追加
genome_reports2ttl.rb対応
Genes, Proteins数の情報を取得するため SPARQLthon21/Organism#NCBI.2FGenome_Reports で開発したgenome_reports2ttl.rbを利用する。
RDFサンプル
assembly_reports.ttl
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> . @prefix sio: <http://semanticscience.org/resource/> . @prefix asm: <http://www.ncbi.nlm.nih.gov/assembly/> . [ rdf:type asm:Assembly_Database_Entry ; rdf:type <http://identifiers.org/insdc> ; asm:wasDerivedFrom "assembly_summary_genbank.txt" ; asm:assembly_id "GCF_000001215.2" ; asm:bioproject_accession "PRJNA164" ; asm:bioproject <http://identifiers.org/bioproject/PRJNA164> ; asm:biosample_accession "" ; asm:biosample <http://identifiers.org/biosample/> ; asm:wgs_master "AABU00000000.1" ; asm:refseq_category "na" ; asm:tax_id "7227" ; asm:taxon <http://identifiers.org/taxonomy/7227> ; asm:species_taxid "7227" ; asm:organism_name "Drosophila melanogaster" ; asm:infraspecific_name "" ; asm:isolate "" ; asm:version_status "replaced" ; asm:assembly_level "Chromosome" ; asm:release_type "Major" ; asm:genome_rep "Full" ; asm:release_date "2007/10/22" ; asm:asm_name "Release 5" ; asm:submitter "" ; asm:gbrs_paired_asm "GCA_000001215.2" ; asm:paired_asm_comp "different" ; asm:ftp_path "na"; #only prokaryotes rdfs:seeAlso asm:GCF_000001215.2 ; asm:total-length 139485381 ; asm:spanned-gaps 579 ; asm:unspanned-gaps 0 ; asm:region-count 0 ; asm:scaffold-count 2479 ; asm:scaffold-N50 23011544 ; asm:scaffold-L50 3 ; asm:scaffold-N75 21146708 ; asm:scaffold-N90 2517507 ; asm:contig-count 3058 ; asm:contig-N50 21485538 ; asm:total-gap-length 2659325 ; asm:molecule-count 8 ; asm:top-level-count 2480 ; asm:sequnece [ asm:sequence_name "X" ; asm:sequence_role "assembled-molecule" ; asm:assigned_molecule "X" ; . . .
今後の作業
- genome_reports2ttl.rbを更新系にのせる
- RDFをepに投入後、MBGDの分類フローに従って、SPARQLでゲノムリストを取得する
- MBGDへのゲノムとの差分をとる
- PGDBjとの連携
関連
ID間のリンクセットRDF
- ソースの取得からRDFへの変換までの仕組みを開発
- assembly_reportsのソース取得の高速化、データ転送
- リンクセットRDFを生成する二項関係をタブ区切りファイルで出力
Assembly Reportsに含まれるassembly_id関連リンク
- asm:assembly_id "GCF_000001215.2" ;
- asm:bioproject_accession "PRJNA164" ;
- asm:biosample_accession "" ;
- asm:tax_id "7227" ;
- asm:gbrs_paired_asm "GCA_000001215.2" ;
- asm:genbank_accession "AE014298.4" ;
- asm:refseq_accession "NC_004354.3" ;
タブ区切りファイル
type | id | type | id |
---|---|---|---|
assembly | GCF_000001215.2 | bioproject | PRJNA164 |
assembly | GCF_000001215.2 | biosample | |
assembly | GCF_000001215.2 | taxonomy | 7227 |
assembly | GCF_000001215.2 | assembly | GCA_000001215.2 |
assembly | GCF_000001215.2 | genbank | AE014298.4 |
assembly | GCF_000001215.2 | refseq | NC_004354.3 |
assembly | GCF_000001215.2 | ... | ... |
今後の課題
- RDFデータモデル
- idorgのnamespace内でさらにID体系が複数あるものの取り扱い 例) insdc.sra
- RDFコンバータースクリプトの高速化
- 対応すべきデータセットの検討