BH12.12/Identifiers.org連携

提供:TogoWiki

移動: 案内, 検索

目次

Identifiers.org の ID を共通 URI として使う

TogoGenome では xref を Identifiers.org の URIs に統一することでいろいろな RDF とマージしやすくしたいと考えています。

 <http://our.db/db1/entry1> rdfs:seeAlso <http://identifiers.org/db1/entry1>
 <http://our.db/db2/entry2> rdfs:seeAlso <http://identifiers.org/db2/entry2>
    :

これらの identifiers.org の URI がどの DB の URI なのか、人間が見たらわかるけれど、自動的に処理するためには正規表現を使う方法とクラス定義を使う方法が考えられます。

正規表現を使う方法は SPARQL の FILTER 文を利用します。

 # ex1: SPARQL query to select links to "db1" by FILTER with a regular expression.
 SELECT *
 WHERE {
   ?entry rdfs:seeAlso ?link .
   FILTER (regex(str(?link), "identifiers.org/db1/"))
 }

この方法では URI を文字列として、コストの掛かる正規表現マッチを利用するので遅くなります。

クラス定義を使う方法は UniProt でも利用されています。

 <http://rdf.identifiers.org/Db1> rdfs:subClassOf <http://rdf.identifiers.org/Database>
 <http://rdf.identifiers.org/Db2> rdfs:subClassOf <http://rdf.identifiers.org/Database>
    :
 <http://identifiers.org/db1/entry1> rdf:type <http://rdf.identifiers.org/Db1>
 <http://identifiers.org/db2/entry2> rdf:type <http://rdf.identifiers.org/Db2>
    :
 # ex2: SPARQL query to effectively select links to "db1" by the database type.
 SELECT *
 WHERE {
   ?entry rdfs:seeAlso ?link .
   ?link rdf:type <http://rdf.identifiers.org/Db1> .
 }

この方法では、全ての URI に rdf:type (a) のトリプルをつけるのでデータは増えますが、インデックス化されるので検索は速い(はず)です。

Identifiers.org が各 DB の prefix に対しデータベースをクラス定義してくれるといいですね。 さらに、その DB についての情報を SPRAQL エンドポイントから利用できるようになっているとすばらしいです。

このあたりについて、Identifiers.org の方にリクエストしています。

INSDC や RefSeq の /db_xref リスト

INSDC (GenBank/DDBJ/EMBL) で使われている /db_xref の DB 名のリストは下記にあります:

これと Identifiers.org のレジストリを照らし合わせることで、まだ Identifiers.org に登録されていない DB をリストアップして、追加してもらおうと思います。

現状の問題点としては、<http://identifiers.org/db名/entry名> で転送すべき先の URL を元データベースが提供してくれていない場合などがあります。

Identifiers.org に未登録の RefSeq (prokaryote) に出てくる /db_xref

RefSeq に出てきた下記のデータベースについてはまだ Identifiers.org に登録されていなかったので、URI の登録を検討中。

INSDC からの db_xref と identifiers.org の対応確認

上記の INSDC リンク先リストから、すでに Identifiers.org に登録があるかどうかを確認中。

OK

  • GeneDB
    • Curated gene database for Schizosaccharomyces pombe, Leishmania major and Trypanosoma brucei
    • /db_xref="GeneDB:SPCC285.16c"
    • http://identifiers.org/genedb/
  • GOA
    • Gene Ontology Annotation Database Identifier
    • /db_xref=" GOA :P01100"
    • http://identifiers.org/goa/
      • ^([A-N,R-Z][0-9][A-Z][A-Z, 0-9][A-Z, 0-9][0-9])|([O,P,Q][0-9][A-Z, 0-9][A-Z, 0-9][A-Z, 0-9][0-9])$
  • UniProtKB/Swiss-Prot
    • section of the UniProt Knowledgebase, containing annotated records, which include curator-evaluated computational analysis, as well as, information extracted from the literature
    • /db_xref="UniProtKB/Swiss-Prot:P12345"
    • http://identifiers.org/uniprot/
  • UniProtKB/TrEMBL
    • section of the UniProt Knowledgebase, containing computationally analysed records waiting for full manual annotation
    • /db_xref=" UniProtKB/TrEMBL:Q00177"
    • http://identifiers.org/uniprot/
  • VBASE2
    • Integrative database of germ-line V genes from the immunoglobulin loci of human and mouse
    • /db_xref="VBASE2:humIGKV165"
    • http://identifiers.org/vbase2/


Need Check

  • CABRI
    • Common Access to Biological Resources and Information project
    • /db_xref="CABRI: ACC 424"
    • http://identifiers.org/cabri/
      • ^([A-Za-z]+)?(\_)?([A-Za-z-]+)\:([A-Za-z0-9 ]+)$
  • ENSEMBL
    • Database of automatically annotated genomic data
    • /db_xref="ENSEMBL:HUMAN-Clone-AC005612"
    • /db_xref="ENSEMBL:HUMAN-Gene-ENSG00000007102"
    • http://identifiers.org/ensembl/
      • ^ENS[A-Z]*[FPTG]\d{11}(\.\d+)?$
  • VectorBase
    • Bioinformatics Resource Center for Invertebrate Vectors of Human Pathogens
    • /db_xref="VectorBase:ENSANGG00000007825"
    • http://identifiers.org/vectorbase/
      • ^\D{4}\d{6}(\-\D{2})?$


NG

  • AFTOL
    • Assembling the Fungal Tree of Life
    • /db_xref="AFTOL:959"
    •  ??
  • APHIDBASE
    • Aphid Genome Database
    • /db_xref="APHIDBASE:ACYPI007424"
    •  ??
  • ATCC(in host)
    • American Type Culture Collection database
    • /db_xref="ATCC(in host):123456"
    •  ??
  • ATCC(dna)
    • American Type Culture Collection database
    • /db_xref="ATCC(dna):123456”
    •  ??
  • Axeldb
    • A Xenopus laevis database
    • /db_xref="Axeldb:32B3.1"
    •  ??
  • BGD
    • Bovine Genome Database
    • /db_xref="BGD:BT10004"
    •  ??
  • CCAP
    • Culture Collection of algae and protozoa
    • /db_xref="CCAP: 1460/15"
    •  ??
  • EPD
    • Eukaryotic Promotor Database
    • /db_xref="EPD: EP00576"
    •  ??
  • ERIC
    • Enteropathogen Resource Integration Center
    • /db_xref="ERIC:ABY-0246137"
    •  ??
  • ESTLIB
    • EBI's EST library identifier
    • /db_xref="ESTLIB:1200"
    •  ??
  • FANTOM_DB
    • Database of Functional Annotation of Mouse
    • /db_xref="FANTOM_DB:0610005A07"
    •  ??
  • FBOL
    • International Fungal Working Group Fungal Barcoding
    • /db_xref="FBOL:2224"
    •  ??
  • GDB
    • Human Genome Database accession numbers
    • /db_xref="GDB:G00-128-600"
    •  ??
  • GI
    • GenInfo identifier, used as a unique sequence identifier for nucleotide and proteins
    • /db_xref="GI:1234567890"
    •  ??
  • HMP
    • Human Microbiome Project
    • /db_xref="HMP:0536"
    •  ??
  • IMGT/GENE-DB
    • Immunogenetics database, immunoglobulin and T-cell receptor genes
    • /db_xref="IMGT/GENE-DB:IGKC"
    •  ??
  • JGI's Phytozome
    • Comparative genomics of plants
    • /db_xref="Phytozome:Glyma0021s00410"
    • /db_xref="Phytozme:POPTR_1446s00200"
    •  ??
  • NMPDR
    • National Microbial Pathogen Data Resource
    • /db_xref="NMPDR:fig|306254.1.peg.183"
    •  ??
  • NRESTdb
    • Natural Rubber EST database
    • /db_xref="NRESTdb:Y01A01"
    •  ??
  • Osa1
    • Rice Genome Annotation Project
    • /db_xref="Osa1:LOC_Os01g12345"
    •  ??
  • Pathema
    • Pathema Genome Resource
    • /db_xref="Pathema:BA_4405"
    • /db_xref="Pathema:191218"
    •  ??
  • PBmice
    • PiggyBac Mutagenesis Information Center
    • /db_xref="PBmice:38"
    •  ??
  • PIR
    • Protein Information Resource accession numbers
    • /db_xref="PIR:S12345"
    •  ??
  • PSEUDO
    • EMBL pseudo protein identifier
    • /db_xref="PSEUDO:CAC44644.1"
    •  ??
  • RATMAP
    • Rat Genome Database
    • /db_xref="RATMAP:5"
    •  ??
  • RFAM
    • RNA families database of alignments and CMs
    • /db_xref="RFAM:RF00230"
    •  ??
  • RiceGenes
    • Rice database accession numbers
    • /db_xref="RiceGenes:AA231856"
    •  ??
  • RZPD
    • Resource Centre Primary Database Clone Identifiers
    • /db_xref="RZPD:IMAGp998I142450Q6"
    •  ??
  • SEED
    • The SEED Database
    • /db_xref="SEED:fig|83331.1.peg.1"
    •  ??
  • SK-FST
    • Saskatoon Arabidopsis T-DNA mutant population - SK Collection
    • /db_xref="SK-FST: FST:SK32219"
    •  ??
  • SubtiList
    • Bacillus subtilis genome sequencing project
    • /db_xref="SubtiList:BG10001"
    •  ??
  • UNILIB
    • Unified Library Database, a library-level view of the EST and SAGE libraries present in dbEST, UniGene and SAGEmap
    • /db_xref="UNILIB:1002"
    •  ??
  • ViPR
    • Virus Pathogen Resource
    • /db_xref="ViPR:HRV-A34_p1058_sR263_2008"
    •  ??


TODO

  • LocusID
    • NCBI LocusLink ID **Discontinued March 2005
    • /db_xref="LocusID:51199"
    • NO NEED