BH12.12/SPARQLthon12/INSDC
提供:TogoWiki
(版間での差分)
(→INSDC/DDBJオントロジーのアップデート) |
|||
45行: | 45行: | ||
** taxonomy id | ** taxonomy id | ||
** locus_tag -- ヒトについては locus_tag は無く hgnc の ID が使われている? | ** locus_tag -- ヒトについては locus_tag は無く hgnc の ID が使われている? | ||
+ | |||
+ | == DDBJルールに関するモデル設計 == | ||
+ | * PLN organelleやHUM/PRI/ROD/MAM/VRT などをどのように扱うか? | ||
+ | <http://ddbj.nig.ac.jp/ontologies/sequence#PLN> | ||
+ | rdf:type <http://ddbj.nig.ac.jp/ontologies/sequence#Division> | ||
+ | rdfs:label "PLN" | ||
+ | rdfs:comment "..." | ||
+ | <http://ddbj.nig.ac.jp/ontologies/sequence#organelle> | ||
+ | .. | ||
+ | |||
+ | <http://ddbj.nig.ac.jp/resource/extended_division#PLN_organelle> #ToDo: URI設計 | ||
+ | rdf:type <http://ddbj.nig.ac.jp/ontologies/sequence#ExtendedDivision> | ||
+ | rdfs:label "PLN organelle" | ||
+ | xxx:member | ||
+ | |||
+ | <http://ddbj.nig.ac.jp/ontologies/sequence#ExtendedDivision> rdfs:subClassOf <http://ddbj.nig.ac.jp/ontologies/sequence#Division> | ||
+ | |||
== 参考情報 == | == 参考情報 == |
2013年9月19日 (木) 09:20時点における最新版
目次 |
INSDC/DDBJ
INSDC/DDBJオントロジーのアップデート
- feature-qualifierの対応を取得するSPARQLで全データが返ってこないバグの修正
- DDBJ登録システムバックエンドのルール用にDDBJ独自ルールを記述する
- URI を変更する
-
http://ddbj.nig.ac.jp/ontologies/sequence/or - http://ddbj.nig.ac.jp/ontologies/sequence#
- オントロジーを置く URI をフラグメント # で終わるかパス / で終わるかは、単にファイルだけを置く感じにするか、UniProt のように個別の predicate や class についても情報を返せるようにしていくか?→ ファイルを置くことにする
-
- jervenからの指摘箇所
139,140c139 < rdfs:subClassOf [ < a owl:Restriction ; --- > owl:equivalentClass [
- SOを記述する - ft_so の対応表のアップデートが必要かも
- gene, transcript, CDS, mRNA, … などの関係をどう標準化するのがいいのか?Featureのサブクラスとしてそれぞれ定義してある、例えば、gene クラスと CDS クラスの関係表現を考える
- Evolution of the Sequence Ontology terms and relationships. J Biomed Inform. 2011 Feb;44(1):87-93.
- # SPARQLでの遺伝子の問い合わせの際、gene or rRNA or tRNA で問い合わせているところを、オントロジー側できれいに解決できるとよいかもしれない
- gene, transcript, CDS, mRNA, … などの関係をどう標準化するのがいいのか?Featureのサブクラスとしてそれぞれ定義してある、例えば、gene クラスと CDS クラスの関係表現を考える
refseq2ttl.rb と生成RDFのアップデート
v6 -> v7の変更点
- insdc: で指定していた prefix の URI が <http://ddbj.nig.ac.jp/ontologies/sequence#> に変わったこと
- insdc:feature_* と insdc:source_* の feature_, source_ がなくなったこと
- <http://identifiers.org/DB名/ID名> の rdf:type が idorg:DB名 から <http://identifiers.org/DB名/> になったこと
がメインな変更です。あとは
- ヒトゲノムデータ用に SO や xref (rdfs:seeAlso) を拡充したことなど。
v7 の release candidateで生成されたRDFを確認しつつ、変更カ所があればここに記載する
- BioProjectIDのプレフィックス問題を問題を解決するため、BioProject/BioSample IDのパースの仕様を変更
- BioProject: XXXXX があれば採用する
- Project: XXXXX があればPRJNAプレフィックスをつける
- BioSample IDを新たにパースした
例) http://togows.org/entry/nucleotide/NC_017506
DDBJエントリーRDFの課題のリストアップ
Genome Refineの未公開ゲノムRDFとの差異の確認と対応
- sequence とか databaseとか外部リソースURLを使っているところ
- identifiers.org
- togows
- INSDCが発行するidentifier関連
- bioproject
- sequence accession
- taxonomy id
- locus_tag -- ヒトについては locus_tag は無く hgnc の ID が使われている?
DDBJルールに関するモデル設計
- PLN organelleやHUM/PRI/ROD/MAM/VRT などをどのように扱うか?
<http://ddbj.nig.ac.jp/ontologies/sequence#PLN> rdf:type <http://ddbj.nig.ac.jp/ontologies/sequence#Division> rdfs:label "PLN" rdfs:comment "..." <http://ddbj.nig.ac.jp/ontologies/sequence#organelle> .. <http://ddbj.nig.ac.jp/resource/extended_division#PLN_organelle> #ToDo: URI設計 rdf:type <http://ddbj.nig.ac.jp/ontologies/sequence#ExtendedDivision> rdfs:label "PLN organelle" xxx:member
<http://ddbj.nig.ac.jp/ontologies/sequence#ExtendedDivision> rdfs:subClassOf <http://ddbj.nig.ac.jp/ontologies/sequence#Division>
参考情報
BioProject Accessionプレフィックスのルール
- 1〜3桁目 PRJ : BioProject 固定値
- 4桁目 N or E or D : 登録受付機関 NCBI or Embl or DDBJ
- 5桁目 : NCBI はAを使用。DDBJは、NCBIが代わりに受付をしていた頃のデータはA, DDBJが受付をしたデータはB。
Source FeatureのQualifierに関するDDBJ 独自の制約ルール
DDBJ Extended Division毎の制約
Qualifier key of source feature | BCT | INV | INV organelle | PLN | PLN organelle | HUM/PRI/ROD/MAM/VRT | HUM/PRI/ROD/MAM/VRT organelle | Influenza A virus | VRL/PHG | ENV | SYN | Comment |
/altitude | optional | optional | optional | optional | optional | optional | optional | optional | optional | optional | ||
/bio_material | optional | optional | optional | optional | optional | optional | ||||||
/cell_line | optional | optional | optional | optional | recommended | recommended | ||||||
/cell_type | optional | optional | optional | optional | recommended | recommended | ||||||
/chromosome | optional | optional | optional | recommended | optional | |||||||
/citation | optional | optional | optional | optional | optional | optional | optional | optional | optional | optional | optional | /citation(DDBJのsource配下には使用しない) |
/clone | optional | optional | optional | optional | optional | optional | optional | optional | optional | recommended | recommended | |
/clone_lib | optional | optional | optional | optional | optional | optional | optional | optional | optional | optional | ||
/collected_by | recommended | recommended | recommended | recommended | recommended | optional | optional | optional | optional | optional | ||
/collection_date | recommended | recommended | recommended | recommended | recommended | recommended | recommended | recommended | recommended | recommended | ||
/country | recommended | recommended | recommended | recommended | recommended | recommended | recommended | recommended | recommended | recommended | ||
/cultivar | recommended | recommended | /cultivar(栽培品種の場合必須) | |||||||||
/culture_collection | optional | optional | optional | optional | optional | optional | optional | |||||
/db_xref | optional | optional | optional | optional | optional | optional | optional | optional | optional | optional | optional | /db_xref(taxon:以外のもの) |
/dev_stage | optional | optional | optional | optional | recommended | recommended | ||||||
/ecotype | optional | optional | optional | optional | optional | optional | ||||||
/environmental_sample | mandatory | |||||||||||
/focus | optional | optional | optional | optional | optional | optional | optional | optional | optional | optional | /focus(multi sourceを使用しないなら不要) | |
/germline | optional | optional | optional | |||||||||
/haplogroup | optional | optional | optional | optional | optional | optional | ||||||
/haplotype | optional | recommended | optional | recommended | optional | recommended | ||||||
/host | optional | optional | optional | optional | optional | optional | optional | recommended | recommended | optional | ||
/identified_by | optional | optional | optional | optional | optional | optional | optional | optional | optional | |||
/isolate | optional | recommended | recommended | recommended | recommended | recommended | recommended | optional | optional | optional | ||
/isolation_source | recommended | recommended | recommended | recommended | recommended | optional | optional | recommended | optional | recommended | ||
/lab_host | optional | optional | optional | optional | optional | optional | optional | optional | optional | optional | ||
/lat_lon | recommended | recommended | recommended | recommended | recommended | optional | optional | optional | optional | recommended | ||
/macronuclear | optional | optional | ||||||||||
/map | optional | optional | optional | optional | optional | recommended | optional | optional | optional | optional | ||
/mating_type | optional | optional | optional | optional | optional | |||||||
/mol_type | mandatory | mandatory | mandatory | mandatory | mandatory | mandatory | mandatory | mandatory | mandatory | mandatory | mandatory | |
/note | optional | optional | optional | optional | optional | optional | optional | optional | optional | optional | optional | |
/organelle | optional | optional | optional | optional | optional | optional | ||||||
/organism | mandatory | mandatory | mandatory | mandatory | mandatory | mandatory | mandatory | mandatory | mandatory | mandatory | mandatory | |
/PCR_primers | recommended | recommended | recommended | recommended | recommended | recommended | recommended | optional | optional | recommended | optional | |
/plasmid | optional | optional | optional | |||||||||
/proviral | optional | optional | ||||||||||
/rearranged | optional | optional | optional | |||||||||
/segment | recommended | optional | ||||||||||
/serotype | optional | optional | optional | optional | optional | recommended | optional | |||||
/serovar | optional | optional | optional | optional | optional | optional | optional | |||||
/sex | optional | optional | optional | optional | optional | optional | ||||||
/specimen_voucher | optional | optional | optional | optional | optional | optional | ||||||
/strain | recommended | optional | optional | recommended | recommended | optional | optional | recommended | recommended | |||
/sub_clone | optional | optional | optional | optional | optional | optional | optional | optional | optional | |||
/sub_species | optional | optional | optional | optional | optional | optional | optional | /sub_species(subspeciesの場合必須) | ||||
/sub_strain | optional | optional | optional | optional | optional | optional | optional | |||||
/tissue_lib | optional | optional | optional | optional | optional | optional | ||||||
/tissue_type | optional | optional | optional | optional | recommended | recommended | ||||||
/transgenic | optional | optional | optional | optional | optional | optional | optional | |||||
/variety | optional | optional | optional | optional | optional | /variety(varietasの場合必須) | ||||||
circular | optional | optional | optional | optional | optional | optional | optional | TOPOLOGY circular |