SPARQLthon21/Organism

提供:TogoWiki

2014年7月5日 (土) 05:14時点におけるTfuji (トーク | 投稿記録)による版
(差分) ←前の版 | 最新版 (差分) | 次の版→ (差分)
移動: 案内, 検索

目次

生物種情報の記述

ゲノムRDF

  • insds2ttl (RDF summit後の更新バージョン) を用いてRefSeq/plant (release65)からRDF試作
    • RDF/turtle、配列エントリーのメタデータおよびSource Feature部分のみ
<http://identifiers.org/refseq/NW_005178015.1>  rdf:type        obo:SO_0000340 .  # SO:chromosome
<http://identifiers.org/refseq/NW_005178015.1>  rdfs:label      "Coccomyxa subellipsoidea C-169, whole genome shotgun sequence." .
<http://identifiers.org/refseq/NW_005178015.1>  insdc:sequence_version  "NW_005178015.1" .
<http://identifiers.org/refseq/NW_005178015.1>  insdc:sequence_length   206615 .
<http://identifiers.org/refseq/NW_005178015.1>  insdc:sequence_fasta    <http://www.ncbi.nlm.nih.gov/nuccore/NW_005178015.1?report=fasta> .
<http://identifiers.org/refseq/NW_005178015.1>  rdf:type        obo:SO_0000987 .  # SO:linear
<http://identifiers.org/refseq/NW_005178015.1>  insdc:sequence_date     "2013-09-24"^^xsd:date .
<http://identifiers.org/refseq/NW_005178015.1>  rdfs:seeAlso    <http://identifiers.org/ncbigi/GI:545353528> .
<http://identifiers.org/ncbigi/GI:545353528>    rdfs:label      "GI:545353528" .
<http://identifiers.org/ncbigi/GI:545353528>    sio:SIO_000068  <http://identifiers.org/ncbigi> .  # sio:is-part-of
<http://identifiers.org/refseq/NW_005178015.1>  rdfs:seeAlso    <http://identifiers.org/refseq/NW_005178015.1> .
<http://identifiers.org/refseq/NW_005178015.1>  rdfs:label      "NW_005178015.1" .
<http://identifiers.org/refseq/NW_005178015.1>  sio:SIO_000068  <http://identifiers.org/refseq> .  # sio:is-part-of
<http://identifiers.org/refseq/NW_005178015.1>  insdc:dblink    <http://identifiers.org/bioproject/PRJNA221161> .
<http://identifiers.org/bioproject/PRJNA221161> rdfs:label      "PRJNA221161" .
<http://identifiers.org/bioproject/PRJNA221161> rdf:type        <http://identifiers.org/bioproject#Entry> .
<http://identifiers.org/refseq/NW_005178015.1>  rdfs:seeAlso    <http://identifiers.org/pubmed/22630137> .
<http://identifiers.org/pubmed/22630137>        rdfs:label      "22630137" .
<http://identifiers.org/pubmed/22630137>        sio:SIO_000068  <http://identifiers.org/pubmed> .  # sio:is-part-of
<http://identifiers.org/refseq/NW_005178015.1>  insdc:location  "1..206615" .
<http://identifiers.org/refseq/NW_005178015.1>  faldo:location  <http://identifiers.org/refseq/NW_005178015.1#region:1-206615:1> .
<http://identifiers.org/refseq/NW_005178015.1#region:1-206615:1>        rdf:type        faldo:Region .
<http://identifiers.org/refseq/NW_005178015.1#region:1-206615:1>        faldo:begin     <http://identifiers.org/refseq/NW_005178015.1#position:1:1> .
<http://identifiers.org/refseq/NW_005178015.1#region:1-206615:1>        faldo:end       <http://identifiers.org/refseq/NW_005178015.1#position:206615:1> .
<http://identifiers.org/refseq/NW_005178015.1#position:1:1>     faldo:position  1 .
<http://identifiers.org/refseq/NW_005178015.1#position:1:1>     faldo:reference <http://identifiers.org/refseq/NW_005178015.1> .
<http://identifiers.org/refseq/NW_005178015.1#position:1:1>     rdf:type        faldo:ForwardStrandPosition .
<http://identifiers.org/refseq/NW_005178015.1#position:1:1>     rdf:type        faldo:ExactPosition .
<http://identifiers.org/refseq/NW_005178015.1#position:206615:1>        faldo:position  206615 .
<http://identifiers.org/refseq/NW_005178015.1#position:206615:1>        faldo:reference <http://identifiers.org/refseq/NW_005178015.1> .
<http://identifiers.org/refseq/NW_005178015.1#position:206615:1>        rdf:type        faldo:ForwardStrandPosition .
<http://identifiers.org/refseq/NW_005178015.1#position:206615:1>        rdf:type        faldo:ExactPosition .
<http://identifiers.org/refseq/NW_005178015.1>  rdfs:seeAlso    <http://identifiers.org/taxonomy/574566> .
<http://identifiers.org/taxonomy/574566>        rdfs:label      "574566" .
<http://identifiers.org/taxonomy/574566>        sio:SIO_000068  <http://identifiers.org/taxonomy> .  # sio:is-part-of
<http://identifiers.org/refseq/NW_005178015.1>  insdc:organism  "Coccomyxa subellipsoidea C-169" .
<http://identifiers.org/refseq/NW_005178015.1>  insdc:mol_type  "genomic DNA" .
<http://identifiers.org/refseq/NW_005178015.1>  insdc:strain    "C-169"

NCBI/Genome_Reports

<http://identifiers.org/bioproject/PRJNA60>
       :organism_name  "Synechocystis sp. PCC 6803" ;
       :tax_id "1148" ;
       :taxon  <http://identifiers.org/taxonomy/1148> ;
       :bioproject_accession   "PRJNA60" ;
       :bioproject     <http://identifiers.org/bioproject/PRJNA60> ;
       :bioproject_id  "60" ;
       :group  "Cyanobacteria" ;
       :subgroup       "Oscillatoriophycideae" ;
       :size   "3.94702" ;
       :gc     "47.3493" ;
       :chromosomes_refseq     "NC_000911.1" ; #only prokaryotes
       :chromosomes_insdc      "BA000022.2" ; #only prokaryotes
       :plasmids_refseq        "NC_005229.1,NC_005231.1,NC_005230.1,NC_005232.1" ; #only prokaryotes
       :sequences      <http://identifiers.org/bioproject/PRJNA60#sequences> ;
       :plasmids_insdc "AP004310.1,AP004312.1,AP004311.1,AP006585.1" ; #only prokaryotes
       :wgs    "-" ;
       :scaffolds      "5" ;
       :genes  "3625" ;
       :proteins       "3575" ;
       :release_date   "2001/07/27" ;
       :modify_date    "2014/05/15" ;
       :status "Gapless Chromosome" ;
       :center "Kazusa" ;
       :biosample_accession    "-" ;
       :assembly_accession     "GCA_000009725.1" ;
       :reference      "REPR"; #only prokaryotes
       :ftp_path       "Synechocystis_sp._PCC_6803/GCF_000009725"; #only prokaryotes
.
<http://identifiers.org/refseq/NC_000911.1>
       rdf:type        obo:SO_0000340 ;
       rdfs:label      "NC_000911.1" ;
       :collection     <http://identifiers.org/bioproject/PRJNA60#sequences> ;
.
<http://identifiers.org/refseq/NC_005229.1>
       rdf:type        obo:SO_0000155 ;
       rdfs:label      "NC_005229.1" ;
       :collection     <http://identifiers.org/bioproject/PRJNA60#sequences> ;
.
<http://identifiers.org/refseq/NC_005231.1>
       rdf:type        obo:SO_0000155 ;
       rdfs:label      "NC_005231.1" ;
       :collection     <http://identifiers.org/bioproject/PRJNA60#sequences> ;
.
<http://identifiers.org/refseq/NC_005230.1>
       rdf:type        obo:SO_0000155 ;
       rdfs:label      "NC_005230.1" ;
       :collection     <http://identifiers.org/bioproject/PRJNA60#sequences> ;
.
<http://identifiers.org/refseq/NC_005232.1>
       rdf:type        obo:SO_0000155 ;
       rdfs:label      "NC_005232.1" ;
       :collection     <http://identifiers.org/bioproject/PRJNA60#sequences> ;
.

RDF変換

lftp ftp://ftp.ncbi.nlm.nih.gov/genomes/
fltp> mirror GENOME_REPORTS
ruby genome_reports2ttl.rb >genome_reports.ttl

課題と更新

  • prokaryotes.txt or eukaryotes.txt コンバーターとデータ統合 【OK】
  • prokaryotes のみのデータをどうするか → SPARQL で optional【OK】
  • bioproject, biosample, taxidなどINSDCリソース → identifiers.orgなURIをオブジェクトにもつ新規predicateをつけていく【OK】
  • リソースURI or リテラル “-" の場合、トリプルは作らない。【OK】
  • date or “-“ → “0001/01/01” → date型やめる [OK]
  • statusは SOの対応を取る→insdc2ttl -t “SO:hoge” で必要な対応を取った【OK】
    • {"Contig"=>12234, "Gapless Chromosome"=>2935, "Complete"=>25, "Scaffold"=>11279, "Chromosome"=>533, "Chromosome with gaps"=>339}
  • 配列リソースについては :chromosome, :plasmid を見直して、sequence 毎にtypeをつける【Done】
  • eukaryotes.txtにはAccession が記載されていないので、BioProject - Sequence のID対応ファイルを探すかGenBankファイルを一度パースして別途RDFする【Todo】
    • データモデル案
<http://identifiers.org/bioproject/PRJNA60>
   :sequences <http://identifiers.org/bioproject/PRJNA60#sequences> .
<http://identifiers.org/refseq/NC_000911.1>
   rdf:type  obo:SO_0000340 ;
   rdfs:label “NC_000911.1” . 
   :sequence_accession "NC_000911.1” ;
   :sequence_length 3573470 ;
   :collection <http://identifiers.org/bioproject/PRJNA60#sequences> ;
  • おれおれpredicateをなんとかする→ bioproject.xsd【Todo】

INSDC/Refseq

データベースカタログ

Dbcatalog-rdf-organism.png

    • 利用例)taxonomy.owlとdbcatalog-RDFを用いて緑藻(taxid:3041)データベースのSPARQLによる問い合せ http://goo.gl/kbAUd7

DDBJ版Taxonomy.owl

  • DBCLS開発、DDBJでホスト(公開準備中)
@base <http://ddbj.nig.ac.jp/ontologies/taxonomy#> .
@prefix : <> .
@prefix owl: <http://www.w3.org/2002/07/owl#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix taxid: <http://identifiers.org/taxonomy/> .
@prefix taxncbi: <http://www.ncbi.nlm.nih.gov/taxonomy/> .
@prefix pubmed: <http://identifiers.org/pubmed/> .

# taxonomy

taxid:1 a       :Taxon .
taxid:1 rdfs:seeAlso    taxncbi:1 .
taxid:1 :rank   :NoRank .
taxid:1 :geneticCode    :GeneticCode1 .
taxid:1 :geneticCodeMt  :GeneticCode0 .
taxid:1 rdfs:label      "root" .
taxid:1 :scientificName "root" .
taxid:1 :synonym        "all" .
taxid:2 a       :Taxon .
taxid:2 rdfs:subClassOf taxid:131567 .
taxid:2 rdfs:seeAlso    taxncbi:2 .
taxid:2 :rank   :Superkingdom .
taxid:2 :geneticCode    :GeneticCode11 .
taxid:2 :geneticCodeMt  :GeneticCode0 .
taxid:2 rdfs:label      "Bacteria" .
taxid:2 :scientificName "Bacteria" .
taxid:2 :uniqueName     "Bacteria <prokaryote>" .
taxid:2 :inPart "Monera" .
taxid:2 :uniqueName     "Monera <Bacteria>" .
taxid:2 :inPart "Procaryotae" .
taxid:2 :uniqueName     "Procaryotae <Bacteria>" .
taxid:2 :inPart "Prokaryota" .
taxid:2 :uniqueName     "Prokaryota <Bacteria>" .
taxid:2 :inPart "Prokaryotae" .
taxid:2 :uniqueName     "Prokaryotae <Bacteria>" .
taxid:2 :blastName      "bacteria" .
taxid:2 :uniqueName     "bacteria <blast2>" .
taxid:2 :genbankCommonName      "eubacteria" .
taxid:2 :synonym        "not Bacteria Haeckel 1894" .
taxid:2 :inPart "prokaryote" .
taxid:2 :uniqueName     "prokaryote <Bacteria>" .
taxid:2 :inPart "prokaryotes" .
taxid:2 :uniqueName     "prokaryotes <Bacteria>" .
  • Todo モデル図を考える


参考

/mw/SPARQLthon21/Organism」より作成