SPARQLthon21/Organism
提供:TogoWiki
(版間での差分)
(→課題と更新) |
|||
47行: | 47行: | ||
** Microbedb.jp http://microbedb.jp/MDB/taxonomy/?taxid=1148 | ** Microbedb.jp http://microbedb.jp/MDB/taxonomy/?taxid=1148 | ||
** TogoGenome http://togogenome.org/organism/1148 | ** TogoGenome http://togogenome.org/organism/1148 | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
=== NCBI/Genome_Reports === | === NCBI/Genome_Reports === | ||
156行: | 149行: | ||
* BioProject IDとの対応表 | * BioProject IDとの対応表 | ||
** ftp://ftp.ncbi.nlm.nih.gov/bioproject/refseq-genbank.csv | ** ftp://ftp.ncbi.nlm.nih.gov/bioproject/refseq-genbank.csv | ||
+ | |||
+ | === データベースカタログ === | ||
+ | * http://integbio.jp/dbcatalog/?lang=ja | ||
+ | * 例 | ||
+ | ** [http://www.w3.org/TR/vocab-dcat/#vocabulary-overview DCAT] を用いたRDFデータモデル図、生物種情報の記述部分を赤で示した | ||
+ | [[ファイル:Dbcatalog-rdf-organism.png|720px]] | ||
+ | ** 利用例)taxonomy.owlとdbcatalog-RDFを用いて緑藻(taxid:3041)データベースのSPARQLによる問い合せ http://goo.gl/kbAUd7 | ||
== DDBJ版Taxonomy.owl == | == DDBJ版Taxonomy.owl == | ||
207行: | 207行: | ||
* Todo モデル図を考える | * Todo モデル図を考える | ||
+ | |||
== 参考 == | == 参考 == |
2014年7月5日 (土) 05:14時点における最新版
目次 |
生物種情報の記述
ゲノムRDF
- insds2ttl (RDF summit後の更新バージョン) を用いてRefSeq/plant (release65)からRDF試作
- 例
- RDF/turtle、配列エントリーのメタデータおよびSource Feature部分のみ
<http://identifiers.org/refseq/NW_005178015.1> rdf:type obo:SO_0000340 . # SO:chromosome <http://identifiers.org/refseq/NW_005178015.1> rdfs:label "Coccomyxa subellipsoidea C-169, whole genome shotgun sequence." . <http://identifiers.org/refseq/NW_005178015.1> insdc:sequence_version "NW_005178015.1" . <http://identifiers.org/refseq/NW_005178015.1> insdc:sequence_length 206615 . <http://identifiers.org/refseq/NW_005178015.1> insdc:sequence_fasta <http://www.ncbi.nlm.nih.gov/nuccore/NW_005178015.1?report=fasta> . <http://identifiers.org/refseq/NW_005178015.1> rdf:type obo:SO_0000987 . # SO:linear <http://identifiers.org/refseq/NW_005178015.1> insdc:sequence_date "2013-09-24"^^xsd:date . <http://identifiers.org/refseq/NW_005178015.1> rdfs:seeAlso <http://identifiers.org/ncbigi/GI:545353528> . <http://identifiers.org/ncbigi/GI:545353528> rdfs:label "GI:545353528" . <http://identifiers.org/ncbigi/GI:545353528> sio:SIO_000068 <http://identifiers.org/ncbigi> . # sio:is-part-of <http://identifiers.org/refseq/NW_005178015.1> rdfs:seeAlso <http://identifiers.org/refseq/NW_005178015.1> . <http://identifiers.org/refseq/NW_005178015.1> rdfs:label "NW_005178015.1" . <http://identifiers.org/refseq/NW_005178015.1> sio:SIO_000068 <http://identifiers.org/refseq> . # sio:is-part-of <http://identifiers.org/refseq/NW_005178015.1> insdc:dblink <http://identifiers.org/bioproject/PRJNA221161> . <http://identifiers.org/bioproject/PRJNA221161> rdfs:label "PRJNA221161" . <http://identifiers.org/bioproject/PRJNA221161> rdf:type <http://identifiers.org/bioproject#Entry> . <http://identifiers.org/refseq/NW_005178015.1> rdfs:seeAlso <http://identifiers.org/pubmed/22630137> . <http://identifiers.org/pubmed/22630137> rdfs:label "22630137" . <http://identifiers.org/pubmed/22630137> sio:SIO_000068 <http://identifiers.org/pubmed> . # sio:is-part-of <http://identifiers.org/refseq/NW_005178015.1> insdc:location "1..206615" . <http://identifiers.org/refseq/NW_005178015.1> faldo:location <http://identifiers.org/refseq/NW_005178015.1#region:1-206615:1> . <http://identifiers.org/refseq/NW_005178015.1#region:1-206615:1> rdf:type faldo:Region . <http://identifiers.org/refseq/NW_005178015.1#region:1-206615:1> faldo:begin <http://identifiers.org/refseq/NW_005178015.1#position:1:1> . <http://identifiers.org/refseq/NW_005178015.1#region:1-206615:1> faldo:end <http://identifiers.org/refseq/NW_005178015.1#position:206615:1> . <http://identifiers.org/refseq/NW_005178015.1#position:1:1> faldo:position 1 . <http://identifiers.org/refseq/NW_005178015.1#position:1:1> faldo:reference <http://identifiers.org/refseq/NW_005178015.1> . <http://identifiers.org/refseq/NW_005178015.1#position:1:1> rdf:type faldo:ForwardStrandPosition . <http://identifiers.org/refseq/NW_005178015.1#position:1:1> rdf:type faldo:ExactPosition . <http://identifiers.org/refseq/NW_005178015.1#position:206615:1> faldo:position 206615 . <http://identifiers.org/refseq/NW_005178015.1#position:206615:1> faldo:reference <http://identifiers.org/refseq/NW_005178015.1> . <http://identifiers.org/refseq/NW_005178015.1#position:206615:1> rdf:type faldo:ForwardStrandPosition . <http://identifiers.org/refseq/NW_005178015.1#position:206615:1> rdf:type faldo:ExactPosition . <http://identifiers.org/refseq/NW_005178015.1> rdfs:seeAlso <http://identifiers.org/taxonomy/574566> . <http://identifiers.org/taxonomy/574566> rdfs:label "574566" . <http://identifiers.org/taxonomy/574566> sio:SIO_000068 <http://identifiers.org/taxonomy> . # sio:is-part-of <http://identifiers.org/refseq/NW_005178015.1> insdc:organism "Coccomyxa subellipsoidea C-169" . <http://identifiers.org/refseq/NW_005178015.1> insdc:mol_type "genomic DNA" . <http://identifiers.org/refseq/NW_005178015.1> insdc:strain "C-169"
- 利用例
- Microbedb.jp http://microbedb.jp/MDB/taxonomy/?taxid=1148
- TogoGenome http://togogenome.org/organism/1148
NCBI/Genome_Reports
- 菌類、緑藻などRefSeqのゲノムサブセットを取得するためのメタデータRDF試作
- ソース
- 例
- 真核・原核生物の変換系とデータを統合した(6/19)
- Sequence IDをsubjectにしたトリプルに変更した(6/20)
<http://identifiers.org/bioproject/PRJNA60> :organism_name "Synechocystis sp. PCC 6803" ; :tax_id "1148" ; :taxon <http://identifiers.org/taxonomy/1148> ; :bioproject_accession "PRJNA60" ; :bioproject <http://identifiers.org/bioproject/PRJNA60> ; :bioproject_id "60" ; :group "Cyanobacteria" ; :subgroup "Oscillatoriophycideae" ; :size "3.94702" ; :gc "47.3493" ; :chromosomes_refseq "NC_000911.1" ; #only prokaryotes :chromosomes_insdc "BA000022.2" ; #only prokaryotes :plasmids_refseq "NC_005229.1,NC_005231.1,NC_005230.1,NC_005232.1" ; #only prokaryotes :sequences <http://identifiers.org/bioproject/PRJNA60#sequences> ; :plasmids_insdc "AP004310.1,AP004312.1,AP004311.1,AP006585.1" ; #only prokaryotes :wgs "-" ; :scaffolds "5" ; :genes "3625" ; :proteins "3575" ; :release_date "2001/07/27" ; :modify_date "2014/05/15" ; :status "Gapless Chromosome" ; :center "Kazusa" ; :biosample_accession "-" ; :assembly_accession "GCA_000009725.1" ; :reference "REPR"; #only prokaryotes :ftp_path "Synechocystis_sp._PCC_6803/GCF_000009725"; #only prokaryotes .
<http://identifiers.org/refseq/NC_000911.1> rdf:type obo:SO_0000340 ; rdfs:label "NC_000911.1" ; :collection <http://identifiers.org/bioproject/PRJNA60#sequences> ; .
<http://identifiers.org/refseq/NC_005229.1> rdf:type obo:SO_0000155 ; rdfs:label "NC_005229.1" ; :collection <http://identifiers.org/bioproject/PRJNA60#sequences> ; .
<http://identifiers.org/refseq/NC_005231.1> rdf:type obo:SO_0000155 ; rdfs:label "NC_005231.1" ; :collection <http://identifiers.org/bioproject/PRJNA60#sequences> ; .
<http://identifiers.org/refseq/NC_005230.1> rdf:type obo:SO_0000155 ; rdfs:label "NC_005230.1" ; :collection <http://identifiers.org/bioproject/PRJNA60#sequences> ; .
<http://identifiers.org/refseq/NC_005232.1> rdf:type obo:SO_0000155 ; rdfs:label "NC_005232.1" ; :collection <http://identifiers.org/bioproject/PRJNA60#sequences> ; .
RDF変換
lftp ftp://ftp.ncbi.nlm.nih.gov/genomes/ fltp> mirror GENOME_REPORTS ruby genome_reports2ttl.rb >genome_reports.ttl
課題と更新
- prokaryotes.txt or eukaryotes.txt コンバーターとデータ統合 【OK】
- prokaryotes のみのデータをどうするか → SPARQL で optional【OK】
- bioproject, biosample, taxidなどINSDCリソース → identifiers.orgなURIをオブジェクトにもつ新規predicateをつけていく【OK】
- リソースURI or リテラル “-" の場合、トリプルは作らない。【OK】
- date or “-“ → “0001/01/01” → date型やめる [OK]
- statusは SOの対応を取る→insdc2ttl -t “SO:hoge” で必要な対応を取った【OK】
- {"Contig"=>12234, "Gapless Chromosome"=>2935, "Complete"=>25, "Scaffold"=>11279, "Chromosome"=>533, "Chromosome with gaps"=>339}
- 配列リソースについては :chromosome, :plasmid を見直して、sequence 毎にtypeをつける【Done】
- eukaryotes.txtにはAccession が記載されていないので、BioProject - Sequence のID対応ファイルを探すかGenBankファイルを一度パースして別途RDFする【Todo】
- データモデル案
<http://identifiers.org/bioproject/PRJNA60> :sequences <http://identifiers.org/bioproject/PRJNA60#sequences> . <http://identifiers.org/refseq/NC_000911.1> rdf:type obo:SO_0000340 ; rdfs:label “NC_000911.1” . :sequence_accession "NC_000911.1” ; :sequence_length 3573470 ; :collection <http://identifiers.org/bioproject/PRJNA60#sequences> ;
- おれおれpredicateをなんとかする→ bioproject.xsd【Todo】
INSDC/Refseq
- 現在、identifiers.org/biosample はEBIのみ登録されている
- BioProject IDとの対応表
データベースカタログ
- http://integbio.jp/dbcatalog/?lang=ja
- 例
- DCAT を用いたRDFデータモデル図、生物種情報の記述部分を赤で示した
- 利用例)taxonomy.owlとdbcatalog-RDFを用いて緑藻(taxid:3041)データベースのSPARQLによる問い合せ http://goo.gl/kbAUd7
DDBJ版Taxonomy.owl
- DBCLS開発、DDBJでホスト(公開準備中)
@base <http://ddbj.nig.ac.jp/ontologies/taxonomy#> . @prefix : <> . @prefix owl: <http://www.w3.org/2002/07/owl#> . @prefix xsd: <http://www.w3.org/2001/XMLSchema#> . @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> . @prefix taxid: <http://identifiers.org/taxonomy/> . @prefix taxncbi: <http://www.ncbi.nlm.nih.gov/taxonomy/> . @prefix pubmed: <http://identifiers.org/pubmed/> . # taxonomy taxid:1 a :Taxon . taxid:1 rdfs:seeAlso taxncbi:1 . taxid:1 :rank :NoRank . taxid:1 :geneticCode :GeneticCode1 . taxid:1 :geneticCodeMt :GeneticCode0 . taxid:1 rdfs:label "root" . taxid:1 :scientificName "root" . taxid:1 :synonym "all" . taxid:2 a :Taxon . taxid:2 rdfs:subClassOf taxid:131567 . taxid:2 rdfs:seeAlso taxncbi:2 . taxid:2 :rank :Superkingdom . taxid:2 :geneticCode :GeneticCode11 . taxid:2 :geneticCodeMt :GeneticCode0 . taxid:2 rdfs:label "Bacteria" . taxid:2 :scientificName "Bacteria" . taxid:2 :uniqueName "Bacteria <prokaryote>" . taxid:2 :inPart "Monera" . taxid:2 :uniqueName "Monera <Bacteria>" . taxid:2 :inPart "Procaryotae" . taxid:2 :uniqueName "Procaryotae <Bacteria>" . taxid:2 :inPart "Prokaryota" . taxid:2 :uniqueName "Prokaryota <Bacteria>" . taxid:2 :inPart "Prokaryotae" . taxid:2 :uniqueName "Prokaryotae <Bacteria>" . taxid:2 :blastName "bacteria" . taxid:2 :uniqueName "bacteria <blast2>" . taxid:2 :genbankCommonName "eubacteria" . taxid:2 :synonym "not Bacteria Haeckel 1894" . taxid:2 :inPart "prokaryote" . taxid:2 :uniqueName "prokaryote <Bacteria>" . taxid:2 :inPart "prokaryotes" . taxid:2 :uniqueName "prokaryotes <Bacteria>" .
- Todo モデル図を考える