BH13.13/DDBJ

提供：TogoWiki

概要

DDBJ; DNA Data Bank of Japan は生命科学の研究活動をサポートするために、国際塩基配列データベースを協同運営する INSDC (International Nucleotide Sequence Database Collaboration) の一員として、塩基配列データを収集しています。あわせて、自由に利用可能な塩基配列データとスーパーコンピュータシステムを提供しています。

準備

ノート:BH13.13/DDBJ

RefGS : Reference Genome Suggest

課題

1/27

BioSample の説明, BH13.13/TaxID2BioSampleID (真島)
- 資料1: DDBJの紹介
- 資料2: BioSample とその周辺

要約: BioSample は他の INSDC 配下のデータベースと同様、登録者の記載を受け付ける primary database であり、ID 体系はデータ登録毎がベースになる。このため、BioSample の ID は taxonomy database がゲノムが登録された微生物に割り当てていた strain level taxonomy ID とは性質が異なり、一意に strain を指すものではない。

BH13.13/ヒトゲノム・日本人ゲノムのRDFモデル設計 (藤本、真島)

IC ベースで制限公開の運用を行う JGA とは方向性が異なるが、DDBJ, DRA において、少数民族・古代人のゲノムデータなどのヒトゲノムを受け付ける際には、目的に応じた匿名化 (マスキング・撹乱など) が適正に行われたデータを視野に入れる可能性があるだろうか？

1/27-28

BioSample の type から必須な attribute を返す仕組の開発 (藤本)

1/27-30

db_xref link 整理、呼び出し (森山)
- @insdc.org (EBI管理)、@GenBank、@DDBJ の整合性
- 参照先の実データ database name + ID の link 先をマップ

1/28-30

DDBJ 登録時の /product qualifier 記載の推奨ルールを体系化する試み (真島)
- 登録受付運用の標準化 (どうしても属人的な要素がある)
- 参照辞書作成 -> PubDictionary
- text mining 応用 -> 表記揺らぎを避ける

現状、公開している説明は間口を広くするために曖昧だが、推奨ルールの体系化と参照辞書に役立ちそうな対象を項目整理

1/29-30

DDBJ の運用課題の洗い出しをする (藤澤、藤本、森山、真島)
- 例えば、DDBJ のデータベース間のデータ連携、登録者ベースの内部的管理
- 書き散らし # 粗く、かつ、内部事情を含むので関係者以外には非公開
- trad-BP-BS-SRA の公開状態 (status) を RDF 管理する試み

DDBJ運用データベースID/Accessionの共通RDFデータモデルのデザイン

課題

submitter 情報統合と関係
entry version情報の管理と記述
Accession No.連番情報野取り扱い、skos:member, skos:collection, ddbj:AccessionSet
BioProject, BioSampleの親子関係の記載 - ddbj:dblink拡張
NCBI管理のtaxonomy id, locus_tag prefix

まとめ

初めは思い付きを挙げている brainstorming のような感じだったが、DDBJ の位置づけは

基本の primary database の登録・公開を確実に続けていくこと
- それにより、コンテンツを提供していく
- また、その中で有用な手法、コンテンツを活用していく
- 内外のデータベース間の連携を高める
- そのための基盤整備を進める

といったところであろうか。

参考リンク

http://www.ddbj.nig.ac.jp/intro-j.html

メンバー

真島
藤本
森山
望月
藤澤