提供:TogoWiki
生物種情報の記述
ゲノムRDF
<http://identifiers.org/refseq/NW_005178015.1> rdf:type obo:SO_0000340 . # SO:chromosome
<http://identifiers.org/refseq/NW_005178015.1> rdfs:label "Coccomyxa subellipsoidea C-169, whole genome shotgun sequence." .
<http://identifiers.org/refseq/NW_005178015.1> insdc:sequence_version "NW_005178015.1" .
<http://identifiers.org/refseq/NW_005178015.1> insdc:sequence_length 206615 .
<http://identifiers.org/refseq/NW_005178015.1> insdc:sequence_fasta <http://www.ncbi.nlm.nih.gov/nuccore/NW_005178015.1?report=fasta> .
<http://identifiers.org/refseq/NW_005178015.1> rdf:type obo:SO_0000987 . # SO:linear
<http://identifiers.org/refseq/NW_005178015.1> insdc:sequence_date "2013-09-24"^^xsd:date .
<http://identifiers.org/refseq/NW_005178015.1> rdfs:seeAlso <http://identifiers.org/ncbigi/GI:545353528> .
<http://identifiers.org/ncbigi/GI:545353528> rdfs:label "GI:545353528" .
<http://identifiers.org/ncbigi/GI:545353528> sio:SIO_000068 <http://identifiers.org/ncbigi> . # sio:is-part-of
<http://identifiers.org/refseq/NW_005178015.1> rdfs:seeAlso <http://identifiers.org/refseq/NW_005178015.1> .
<http://identifiers.org/refseq/NW_005178015.1> rdfs:label "NW_005178015.1" .
<http://identifiers.org/refseq/NW_005178015.1> sio:SIO_000068 <http://identifiers.org/refseq> . # sio:is-part-of
<http://identifiers.org/refseq/NW_005178015.1> insdc:dblink <http://identifiers.org/bioproject/PRJNA221161> .
<http://identifiers.org/bioproject/PRJNA221161> rdfs:label "PRJNA221161" .
<http://identifiers.org/bioproject/PRJNA221161> rdf:type <http://identifiers.org/bioproject#Entry> .
<http://identifiers.org/refseq/NW_005178015.1> rdfs:seeAlso <http://identifiers.org/pubmed/22630137> .
<http://identifiers.org/pubmed/22630137> rdfs:label "22630137" .
<http://identifiers.org/pubmed/22630137> sio:SIO_000068 <http://identifiers.org/pubmed> . # sio:is-part-of
<http://identifiers.org/refseq/NW_005178015.1> insdc:location "1..206615" .
<http://identifiers.org/refseq/NW_005178015.1> faldo:location <http://identifiers.org/refseq/NW_005178015.1#region:1-206615:1> .
<http://identifiers.org/refseq/NW_005178015.1#region:1-206615:1> rdf:type faldo:Region .
<http://identifiers.org/refseq/NW_005178015.1#region:1-206615:1> faldo:begin <http://identifiers.org/refseq/NW_005178015.1#position:1:1> .
<http://identifiers.org/refseq/NW_005178015.1#region:1-206615:1> faldo:end <http://identifiers.org/refseq/NW_005178015.1#position:206615:1> .
<http://identifiers.org/refseq/NW_005178015.1#position:1:1> faldo:position 1 .
<http://identifiers.org/refseq/NW_005178015.1#position:1:1> faldo:reference <http://identifiers.org/refseq/NW_005178015.1> .
<http://identifiers.org/refseq/NW_005178015.1#position:1:1> rdf:type faldo:ForwardStrandPosition .
<http://identifiers.org/refseq/NW_005178015.1#position:1:1> rdf:type faldo:ExactPosition .
<http://identifiers.org/refseq/NW_005178015.1#position:206615:1> faldo:position 206615 .
<http://identifiers.org/refseq/NW_005178015.1#position:206615:1> faldo:reference <http://identifiers.org/refseq/NW_005178015.1> .
<http://identifiers.org/refseq/NW_005178015.1#position:206615:1> rdf:type faldo:ForwardStrandPosition .
<http://identifiers.org/refseq/NW_005178015.1#position:206615:1> rdf:type faldo:ExactPosition .
<http://identifiers.org/refseq/NW_005178015.1> rdfs:seeAlso <http://identifiers.org/taxonomy/574566> .
<http://identifiers.org/taxonomy/574566> rdfs:label "574566" .
<http://identifiers.org/taxonomy/574566> sio:SIO_000068 <http://identifiers.org/taxonomy> . # sio:is-part-of
<http://identifiers.org/refseq/NW_005178015.1> insdc:organism "Coccomyxa subellipsoidea C-169" .
<http://identifiers.org/refseq/NW_005178015.1> insdc:mol_type "genomic DNA" .
<http://identifiers.org/refseq/NW_005178015.1> insdc:strain "C-169"
データベースカタログ
NCBI/Genome_Reports
- 菌類、緑藻などRefSeqのゲノムサブセットを取得するためのメタデータRDF試作
- ソース
- 例
- 真核・原核生物の変換系とデータを統合した(6/19)
- Sequence IDをsubjectにしたトリプルに変更した(6/20)
<http://identifiers.org/bioproject/PRJNA60>
:organism_name "Synechocystis sp. PCC 6803" ;
:tax_id "1148" ;
:taxon <http://identifiers.org/taxonomy/1148> ;
:bioproject_accession "PRJNA60" ;
:bioproject <http://identifiers.org/bioproject/PRJNA60> ;
:bioproject_id "60" ;
:group "Cyanobacteria" ;
:subgroup "Oscillatoriophycideae" ;
:size "3.94702" ;
:gc "47.3493" ;
:chromosomes_refseq "NC_000911.1" ; #only prokaryotes
:chromosomes_insdc "BA000022.2" ; #only prokaryotes
:plasmids_refseq "NC_005229.1,NC_005231.1,NC_005230.1,NC_005232.1" ; #only prokaryotes
:sequences <http://identifiers.org/bioproject/PRJNA60#sequences> ;
:plasmids_insdc "AP004310.1,AP004312.1,AP004311.1,AP006585.1" ; #only prokaryotes
:wgs "-" ;
:scaffolds "5" ;
:genes "3625" ;
:proteins "3575" ;
:release_date "2001/07/27" ;
:modify_date "2014/05/15" ;
:status "Gapless Chromosome" ;
:center "Kazusa" ;
:biosample_accession "-" ;
:assembly_accession "GCA_000009725.1" ;
:reference "REPR"; #only prokaryotes
:ftp_path "Synechocystis_sp._PCC_6803/GCF_000009725"; #only prokaryotes
.
<http://identifiers.org/refseq/NC_000911.1>
rdf:type obo:SO_0000340 ;
rdfs:label "NC_000911.1" ;
:collection <http://identifiers.org/bioproject/PRJNA60#sequences> ;
.
<http://identifiers.org/refseq/NC_005229.1>
rdf:type obo:SO_0000155 ;
rdfs:label "NC_005229.1" ;
:collection <http://identifiers.org/bioproject/PRJNA60#sequences> ;
.
<http://identifiers.org/refseq/NC_005231.1>
rdf:type obo:SO_0000155 ;
rdfs:label "NC_005231.1" ;
:collection <http://identifiers.org/bioproject/PRJNA60#sequences> ;
.
<http://identifiers.org/refseq/NC_005230.1>
rdf:type obo:SO_0000155 ;
rdfs:label "NC_005230.1" ;
:collection <http://identifiers.org/bioproject/PRJNA60#sequences> ;
.
<http://identifiers.org/refseq/NC_005232.1>
rdf:type obo:SO_0000155 ;
rdfs:label "NC_005232.1" ;
:collection <http://identifiers.org/bioproject/PRJNA60#sequences> ;
.
RDF変換
lftp ftp://ftp.ncbi.nlm.nih.gov/genomes/
fltp> mirror GENOME_REPORTS
ruby genome_reports2ttl.rb >genome_reports.ttl
課題と更新
- prokaryotes.txt or eukaryotes.txt コンバーターとデータ統合 【OK】
- prokaryotes のみのデータをどうするか → SPARQL で optional【OK】
- bioproject, biosample, taxidなどINSDCリソース → identifiers.orgなURIをオブジェクトにもつ新規predicateをつけていく【OK】
- リソースURI or リテラル “-" の場合、トリプルは作らない。【OK】
- date or “-“ → “0001/01/01” → date型やめる [OK]
- statusは SOの対応を取る→insdc2ttl -t “SO:hoge” で必要な対応を取った【OK】
- {"Contig"=>12234, "Gapless Chromosome"=>2935, "Complete"=>25, "Scaffold"=>11279, "Chromosome"=>533, "Chromosome with gaps"=>339}
- 配列リソースについては :chromosome, :plasmid を見直して、sequence 毎にtypeをつける【Done】
- eukaryotes.txtにはAccession が記載されていないので、BioProject - Sequence のID対応ファイルを探すかGenBankファイルを一度パースして別途RDFする【Todo】
<http://identifiers.org/bioproject/PRJNA60>
:sequences <http://identifiers.org/bioproject/PRJNA60#sequences> .
<http://identifiers.org/refseq/NC_000911.1>
rdf:type obo:SO_0000340 ;
rdfs:label “NC_000911.1” .
:sequence_accession "NC_000911.1” ;
:sequence_length 3573470 ;
:collection <http://identifiers.org/bioproject/PRJNA60#sequences> ;
- おれおれpredicateをなんとかする→ bioproject.xsd【Todo】
INSDC/Refseq
- 現在、identifiers.org/biosample はEBIのみ登録されている
- BioProject IDとの対応表
DDBJ版Taxonomy.owl
@base <http://ddbj.nig.ac.jp/ontologies/taxonomy#> .
@prefix : <> .
@prefix owl: <http://www.w3.org/2002/07/owl#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix taxid: <http://identifiers.org/taxonomy/> .
@prefix taxncbi: <http://www.ncbi.nlm.nih.gov/taxonomy/> .
@prefix pubmed: <http://identifiers.org/pubmed/> .
# taxonomy
taxid:1 a :Taxon .
taxid:1 rdfs:seeAlso taxncbi:1 .
taxid:1 :rank :NoRank .
taxid:1 :geneticCode :GeneticCode1 .
taxid:1 :geneticCodeMt :GeneticCode0 .
taxid:1 rdfs:label "root" .
taxid:1 :scientificName "root" .
taxid:1 :synonym "all" .
taxid:2 a :Taxon .
taxid:2 rdfs:subClassOf taxid:131567 .
taxid:2 rdfs:seeAlso taxncbi:2 .
taxid:2 :rank :Superkingdom .
taxid:2 :geneticCode :GeneticCode11 .
taxid:2 :geneticCodeMt :GeneticCode0 .
taxid:2 rdfs:label "Bacteria" .
taxid:2 :scientificName "Bacteria" .
taxid:2 :uniqueName "Bacteria <prokaryote>" .
taxid:2 :inPart "Monera" .
taxid:2 :uniqueName "Monera <Bacteria>" .
taxid:2 :inPart "Procaryotae" .
taxid:2 :uniqueName "Procaryotae <Bacteria>" .
taxid:2 :inPart "Prokaryota" .
taxid:2 :uniqueName "Prokaryota <Bacteria>" .
taxid:2 :inPart "Prokaryotae" .
taxid:2 :uniqueName "Prokaryotae <Bacteria>" .
taxid:2 :blastName "bacteria" .
taxid:2 :uniqueName "bacteria <blast2>" .
taxid:2 :genbankCommonName "eubacteria" .
taxid:2 :synonym "not Bacteria Haeckel 1894" .
taxid:2 :inPart "prokaryote" .
taxid:2 :uniqueName "prokaryote <Bacteria>" .
taxid:2 :inPart "prokaryotes" .
taxid:2 :uniqueName "prokaryotes <Bacteria>" .
参考