SPARQLthon24/DDBJ
提供:TogoWiki
目次 |
Taxonomy OWL
- owl:versionInfoのオブジェクトは変換した日付からtaxdump ファイルのタイムスタンプなどデータソースのバージョンにするか? 【Done】
- taxdumpは一日複数回更新される場合がある。owlへの変換は毎日AM4時に変換、AM6時にインポート。
DDBJ OWL
- prefixの変更【Done】
1c1 < @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . --- > @base <http://ddbj.nig.ac.jp/ontologies/nucleotide/> . 3d2 < @prefix xsd: <http://www.w3.org/2001/XMLSchema#> . 5c4,5 < @prefix xml: <http://www.w3.org/XML/1998/namespace> . --- > @prefix xsd: <http://www.w3.org/2001/XMLSchema#> . > @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . 6a7 > @prefix dcterms: <http://purl.org/dc/terms/> . 8c9
- Ontology headerの変更【Done】
10,11c11,15 < rdfs:label "insdc" ; < rdfs:seeAlso <http://www.insdc.org/> . --- > rdfs:label "DDBJ annotated nucleotide sequence ontology" ; > rdfs:comment "DDBJ annotated nucleotide sequence ontology for semantic representation of the INSDC (DDBJ/ENA/GenBank) sequence records" ; > rdfs:seeAlso <http://www.insdc.org/documents/feature-table> ; > dcterms:license <http://creativecommons.org/licenses/by/4.0/> ; > owl:versionInfo "Version 10.3 October 2013" .
- baseURIが、http://insdc.org/owl なリソースURLを http://ddbj.nig.ac.jp/ontologies/nucleotide になるように置換する
* database# * division# * keyword# * comment#
- Version 10.3 October 2013 ルールの更新
- 新設、廃止されたfeature/qualiferの表現について
- <Feature Class> rdfs:seeAlso SO_XXXXXXX 追加する
- ft_so.jsonから取得、差し込む
- Annotated Sequence エントリのメタデータブロックのRDFとの整合性
- Structured Commentのパーサなどない
- Division
- Keyword
- Reference
- DDBJ形式特有の問題
BASE COUNT 1862754 a 1486687 c 1476489 g 1866935 t
- ライセンスを確定させる
- CC0が理想
- DDBJ Home Page by DDBJ is licensed under a Creative Commons 表示 2.1 日本 License
- 違いは? 表示 4.0 国際、表示 3.0 非移植、表示 2.5 一般、表示 2.0 一般、表示 1.0 一般
サンプルデータ AP011615
フラットファイル形式
source featureまで
LOCUS AP011615 6788435 bp DNA circular HTG 16-APR-2010
- locus name
- sequence length #insdc:sequence_length
- molecule type #
- molecular form #insdc:topology insdc:circular
- division
- the date of last release #insdc:sequence_date
DEFINITION Arthrospira platensis NIES-39 DNA, nearly complete genome. #rdfs:label ACCESSION AP011615 VERSION AP011615.1 #insdc:sequence_version DBLINK BioProject:PRJDA42161 KEYWORDS HTG; HTGS_PHASE2. SOURCE Arthrospira platensis NIES-39 ORGANISM Arthrospira platensis NIES-39 Bacteria; Cyanobacteria; Oscillatoriophycideae; Oscillatoriales; Arthrospira. REFERENCE 1 (bases 1 to 6788435) AUTHORS Fujisawa,T., Fujita,N. and Sekine,M. TITLE Direct Submission JOURNAL Submitted (30-NOV-2009) to the DDBJ/EMBL/GenBank databases. Contact:Takatomo Fujisawa National Institute of Technology and Evaluation, NITE, Bioresource Information Center, Department of Biotechnology; 2-49-10 Nishihara, Shibuya, Tokyo 151-0066, Japan URL :http://www.bio.nite.go.jp/ REFERENCE 2 AUTHORS Fujisawa,T., Narikawa,R., Okamoto,S., Ehira,S., Yoshimura,H., Suzuki,I., Masuda,T., Mochimaru,M., Takaichi,S., Awai,K., Sekine,M., Horikawa,H., Yashiro,I., Omata,S., Takarada,H., Katano,Y., Kosugi,H., Tanikawa,S., Ohmori,K., Sato,N., Ikeuchi,M., Fujita,N. and Ohmori,M. TITLE Genomic Structure of an Economically Important Cyanobacterium, Arthrospira (Spirulina) platensis NIES-39 JOURNAL DNA Res. 17, 85-103 (2010) COMMENT Genome Coverage: 11x Sequencing Technology: ABI 3730 The genome structure of A. platensis is estimated to be a single, circular chromosome of 6.8 Mb, based on optical mapping. FEATURES Location/Qualifiers source 1..6788435 #insdc:location /db_xref="taxon:696747" #obo:RO_0002162# RO:in taxon /mol_type="genomic DNA" #insdc:mol_type /organism="Arthrospira platensis NIES-39" #insdc:organism /strain="NIES-39" #insdc:strain
RDF形式
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> . @prefix xsd: <http://www.w3.org/2001/XMLSchema#> . @prefix skos: <http://www.w3.org/2004/02/skos/core#> . @prefix sio: <http://semanticscience.org/resource/> . @prefix obo: <http://purl.obolibrary.org/obo/> . @prefix faldo: <http://biohackathon.org/resource/faldo#> . @prefix insdc: <http://ddbj.nig.ac.jp/ontologies/nucleotide/> . <http://identifiers.org/insdc/AP011615.1> rdf:type insdc:Entry . <http://identifiers.org/insdc/AP011615.1> rdfs:label "Arthrospira platensis NIES-39 DNA, nearly complete genome." . <http://identifiers.org/insdc/AP011615.1> insdc:sequence_version "AP011615.1" . <http://identifiers.org/insdc/AP011615.1> insdc:sequence_date "2010-04-16"^^xsd:date . <http://identifiers.org/insdc/AP011615.1> insdc:sequence <http://identifiers.org/insdc/AP011615.1#sequence> . <http://identifiers.org/insdc/AP011615.1#sequence> rdfs:seeAlso <http://www.ncbi.nlm.nih.gov/nuccore/AP011615.1?report=fasta> . <http://identifiers.org/insdc/AP011615.1#sequence> rdfs:seeAlso <http://www.ebi.ac.uk/ena/data/view/AP011615.1&display=fasta> . <http://identifiers.org/insdc/AP011615.1#sequence> rdfs:seeAlso <http://getentry.ddbj.nig.ac.jp/getentry/na/AP011615.1?format=fasta> . <http://identifiers.org/insdc/AP011615.1#sequence> rdfs:subClassOf obo:SO_0000001 . # SO:sequence <http://identifiers.org/insdc/AP011615.1#sequence> insdc:sequence_length 6788435 . <http://identifiers.org/insdc/AP011615.1#sequence> insdc:topology insdc:circular . <http://identifiers.org/insdc/AP011615.1#sequence> obo:so_has_quality obo:SO_0000988 . # SO:circular <http://identifiers.org/insdc/AP011615.1> rdfs:seeAlso <http://identifiers.org/ncbigi/GI:AP011615.1> . <http://identifiers.org/ncbigi/GI:AP011615.1> rdfs:label "GI:AP011615.1" . <http://identifiers.org/ncbigi/GI:AP011615.1> rdf:type insdc:GI . <http://identifiers.org/ncbigi/GI:AP011615.1> sio:SIO_000068 <http://identifiers.org/ncbigi> . # sio:is-part-of <http://identifiers.org/insdc/AP011615.1> rdfs:seeAlso <http://identifiers.org/refseq/AP011615.1> . <http://identifiers.org/refseq/AP011615.1> rdfs:label "AP011615.1" . <http://identifiers.org/refseq/AP011615.1> rdf:type insdc:RefSeq . <http://identifiers.org/refseq/AP011615.1> sio:SIO_000068 <http://identifiers.org/refseq> . # sio:is-part-of <http://identifiers.org/insdc/AP011615.1#sequence> insdc:location "1..6788435" . <http://identifiers.org/insdc/AP011615.1#sequence> faldo:location <http://identifiers.org/insdc/AP011615.1#region:1-6788435:1> . <http://identifiers.org/insdc/AP011615.1#region:1-6788435:1> rdf:type faldo:Region . <http://identifiers.org/insdc/AP011615.1#region:1-6788435:1> faldo:begin <http://identifiers.org/insdc/AP011615.1#position:1:1> . <http://identifiers.org/insdc/AP011615.1#region:1-6788435:1> faldo:end <http://identifiers.org/insdc/AP011615.1#position:6788435:1> . <http://identifiers.org/insdc/AP011615.1#position:1:1> faldo:position 1 . <http://identifiers.org/insdc/AP011615.1#position:1:1> faldo:reference <http://identifiers.org/insdc/AP011615.1#sequence> . <http://identifiers.org/insdc/AP011615.1#position:1:1> rdf:type faldo:ForwardStrandPosition . <http://identifiers.org/insdc/AP011615.1#position:1:1> rdf:type faldo:ExactPosition . <http://identifiers.org/insdc/AP011615.1#position:6788435:1> faldo:position 6788435 . <http://identifiers.org/insdc/AP011615.1#position:6788435:1> faldo:reference <http://identifiers.org/insdc/AP011615.1#sequence> . <http://identifiers.org/insdc/AP011615.1#position:6788435:1> rdf:type faldo:ForwardStrandPosition . <http://identifiers.org/insdc/AP011615.1#position:6788435:1> rdf:type faldo:ExactPosition . <http://identifiers.org/insdc/AP011615.1> rdfs:seeAlso <http://identifiers.org/taxonomy/696747> . <http://identifiers.org/taxonomy/696747> rdfs:label "696747" . <http://identifiers.org/taxonomy/696747> rdf:type insdc:taxon . <http://identifiers.org/taxonomy/696747> sio:SIO_000068 <http://identifiers.org/taxonomy> . # sio:is-part-of <http://identifiers.org/insdc/AP011615.1#sequence> obo:RO_0002162 <http://identifiers.org/taxonomy/696747> . # RO:in taxon <http://identifiers.org/insdc/AP011615.1> insdc:mol_type "genomic DNA" . <http://identifiers.org/insdc/AP011615.1> insdc:organism "Arthrospira platensis NIES-39" . <http://identifiers.org/insdc/AP011615.1> insdc:strain "NIES-39" .
メタデータ記述の方針
メタデータ記述の方針について確認した。
- divisionの追加
- insdc:division a owl:ObjectProperty .
- divisionをOWLで定義する【TODO】
- DEFINITIONのpredicateをrdfs:labelからinsdc:definitionに変更
- <entry> insdc:definition "xxxx"
- insdc:definition a owl:DatatypeProperty ;
- insdc:definition rdfs:subPropertyOf rdfs:label.
- ACCESSIONの追加
- insdc:accession a owl:DatatypeProperty.
- KEYWORDSの追加
- insdc:keyword a owl:ObjectProperty .
- KEYWORDSをOWLで定義する【TODO】
- SOURCEの追加
- property名を決めるため、documentを確認する【Done】
INSDSeq.dtdでは
<!ELEMENT INSDSeq_source ( #PCDATA )> <!ELEMENT INSDSeq_organism ( #PCDATA )> <!ELEMENT INSDSeq_taxonomy ( #PCDATA )>
<entry> insdc:source " ". <entry> insdc:organism " ". <entry> insdc:taxnomic_lineage " ".
- REFERENCEの追加
- insdc:reference a owl:ObjectProperty .
- REMARK, PUBMEDなどすべての項目を確認する【TODO】
<entry> insdc:reference <entry#reference.1> <entry#reference.1> insdc:authors " ". <entry#reference.1> insdc:title " ". <entry#reference.1> insdc:journal " ". . . .
- COMMENTの追加
- Structured commentについては後回し。Structured commentのkeyのURIについてはinsdc:seuqence_technology = <http://ddbj.nig.ac.jp/ontologies/nucleotide/comment#seuqence_technology> に拡張可能。
<entry> insdc:comment "... ". #要改行コード処理 <entry> insdc:seuqence_technology ""
- DBLINKのBioProjectに関するトリプルが見当たらない
- http://identifiers.org/ncbigi/GI:AP011615.1 は存在しない
<http://identifiers.org/insdc/AP011615.1> rdfs:seeAlso <http://identifiers.org/ncbigi/GI:AP011615.1> . <http://identifiers.org/ncbigi/GI:AP011615.1> rdfs:label "GI:AP011615.1" . <http://identifiers.org/ncbigi/GI:AP011615.1> rdf:type insdc:GI .