BH12.12/SPARQLthon12/INSDC

提供:TogoWiki

移動: 案内, 検索

目次

INSDC/DDBJ

INSDC/DDBJオントロジーのアップデート

  • feature-qualifierの対応を取得するSPARQLで全データが返ってこないバグの修正
  • DDBJ登録システムバックエンドのルール用にDDBJ独自ルールを記述する
  • URI を変更する
  • jervenからの指摘箇所
139,140c139
<     rdfs:subClassOf [
<     a owl:Restriction ;
---
>     owl:equivalentClass [
  • SOを記述する - ft_so の対応表のアップデートが必要かも
    • gene, transcript, CDS, mRNA, … などの関係をどう標準化するのがいいのか?Featureのサブクラスとしてそれぞれ定義してある、例えば、gene クラスと CDS クラスの関係表現を考える
      • Evolution of the Sequence Ontology terms and relationships. J Biomed Inform. 2011 Feb;44(1):87-93.
      • # SPARQLでの遺伝子の問い合わせの際、gene or rRNA or tRNA で問い合わせているところを、オントロジー側できれいに解決できるとよいかもしれない

refseq2ttl.rb と生成RDFのアップデート

v6 -> v7の変更点

がメインな変更です。あとは

  • ヒトゲノムデータ用に SO や xref (rdfs:seeAlso) を拡充したことなど。

v7 の release candidateで生成されたRDFを確認しつつ、変更カ所があればここに記載する

  • BioProjectIDのプレフィックス問題を問題を解決するため、BioProject/BioSample IDのパースの仕様を変更
    1. BioProject: XXXXX があれば採用する
    2. Project: XXXXX があればPRJNAプレフィックスをつける
  • BioSample IDを新たにパースした

例) http://togows.org/entry/nucleotide/NC_017506

DDBJエントリーRDFの課題のリストアップ

Genome Refineの未公開ゲノムRDFとの差異の確認と対応

  • sequence とか databaseとか外部リソースURLを使っているところ
    • identifiers.org
    • togows
  • INSDCが発行するidentifier関連
    • bioproject
    • sequence accession
    • taxonomy id
    • locus_tag -- ヒトについては locus_tag は無く hgnc の ID が使われている?

DDBJルールに関するモデル設計

  • PLN organelleやHUM/PRI/ROD/MAM/VRT などをどのように扱うか?
<http://ddbj.nig.ac.jp/ontologies/sequence#PLN>
  rdf:type <http://ddbj.nig.ac.jp/ontologies/sequence#Division>
  rdfs:label "PLN"
  rdfs:comment "..."
<http://ddbj.nig.ac.jp/ontologies/sequence#organelle>
 ..

<http://ddbj.nig.ac.jp/resource/extended_division#PLN_organelle> #ToDo: URI設計
 rdf:type <http://ddbj.nig.ac.jp/ontologies/sequence#ExtendedDivision>
 rdfs:label "PLN organelle"
 xxx:member
<http://ddbj.nig.ac.jp/ontologies/sequence#ExtendedDivision> rdfs:subClassOf  <http://ddbj.nig.ac.jp/ontologies/sequence#Division>


参考情報

BioProject Accessionプレフィックスのルール

  • 1〜3桁目 PRJ : BioProject 固定値
  • 4桁目 N or E or D : 登録受付機関 NCBI or Embl or DDBJ
  • 5桁目 : NCBI はAを使用。DDBJは、NCBIが代わりに受付をしていた頃のデータはA, DDBJが受付をしたデータはB。

Source FeatureのQualifierに関するDDBJ 独自の制約ルール

DDBJ Extended Division毎の制約

Qualifier key of source feature BCT INV INV organelle PLN PLN organelle HUM/PRI/ROD/MAM/VRT HUM/PRI/ROD/MAM/VRT organelle Influenza A virus VRL/PHG ENV SYN Comment
/altitude optional optional optional optional optional optional optional optional optional optional
/bio_material optional optional optional optional optional optional
/cell_line optional optional optional optional recommended recommended
/cell_type optional optional optional optional recommended recommended
/chromosome optional optional optional recommended optional
/citation optional optional optional optional optional optional optional optional optional optional optional /citation(DDBJのsource配下には使用しない)
/clone optional optional optional optional optional optional optional optional optional recommended recommended
/clone_lib optional optional optional optional optional optional optional optional optional optional
/collected_by recommended recommended recommended recommended recommended optional optional optional optional optional
/collection_date recommended recommended recommended recommended recommended recommended recommended recommended recommended recommended
/country recommended recommended recommended recommended recommended recommended recommended recommended recommended recommended
/cultivar recommended recommended /cultivar(栽培品種の場合必須)
/culture_collection optional optional optional optional optional optional optional
/db_xref optional optional optional optional optional optional optional optional optional optional optional /db_xref(taxon:以外のもの)
/dev_stage optional optional optional optional recommended recommended
/ecotype optional optional optional optional optional optional
/environmental_sample mandatory
/focus optional optional optional optional optional optional optional optional optional optional /focus(multi sourceを使用しないなら不要)
/germline optional optional optional
/haplogroup optional optional optional optional optional optional
/haplotype optional recommended optional recommended optional recommended
/host optional optional optional optional optional optional optional recommended recommended optional
/identified_by optional optional optional optional optional optional optional optional optional
/isolate optional recommended recommended recommended recommended recommended recommended optional optional optional
/isolation_source recommended recommended recommended recommended recommended optional optional recommended optional recommended
/lab_host optional optional optional optional optional optional optional optional optional optional
/lat_lon recommended recommended recommended recommended recommended optional optional optional optional recommended
/macronuclear optional optional
/map optional optional optional optional optional recommended optional optional optional optional
/mating_type optional optional optional optional optional
/mol_type mandatory mandatory mandatory mandatory mandatory mandatory mandatory mandatory mandatory mandatory mandatory
/note optional optional optional optional optional optional optional optional optional optional optional
/organelle optional optional optional optional optional optional
/organism mandatory mandatory mandatory mandatory mandatory mandatory mandatory mandatory mandatory mandatory mandatory
/PCR_primers recommended recommended recommended recommended recommended recommended recommended optional optional recommended optional
/plasmid optional optional optional
/proviral optional optional
/rearranged optional optional optional
/segment recommended optional
/serotype optional optional optional optional optional recommended optional
/serovar optional optional optional optional optional optional optional
/sex optional optional optional optional optional optional
/specimen_voucher optional optional optional optional optional optional
/strain recommended optional optional recommended recommended optional optional recommended recommended
/sub_clone optional optional optional optional optional optional optional optional optional
/sub_species optional optional optional optional optional optional optional /sub_species(subspeciesの場合必須)
/sub_strain optional optional optional optional optional optional optional
/tissue_lib optional optional optional optional optional optional
/tissue_type optional optional optional optional recommended recommended
/transgenic optional optional optional optional optional optional optional
/variety optional optional optional optional optional /variety(varietasの場合必須)
circular optional optional optional optional optional optional optional TOPOLOGY circular