BH13.13/DDBJ

提供:TogoWiki

移動: 案内, 検索

目次

概要

DDBJ; DNA Data Bank of Japan は生命科学の研究活動をサポートするために、国際塩基配列データベースを協同運営する INSDC (International Nucleotide Sequence Database Collaboration) の一員として、塩基配列データを収集しています。あわせて、自由に利用可能な塩基配列データとスーパーコンピュータシステムを提供しています。

準備

ノート:BH13.13/DDBJ

RefGS : Reference Genome Suggest

課題

1/27

要約: BioSample は他の INSDC 配下のデータベースと同様、登録者の記載を受け付ける primary database であり、ID 体系はデータ登録毎がベースになる。 このため、BioSample の ID は taxonomy database がゲノムが登録された微生物に割り当てていた strain level taxonomy ID とは性質が異なり、一意に strain を指すものではない。

IC ベースで制限公開の運用を行う JGA とは方向性が異なるが、DDBJ, DRA において、少数民族・古代人のゲノムデータなどのヒトゲノムを受け付ける際には、目的に応じた匿名化 (マスキング・撹乱など) が適正に行われたデータを視野に入れる可能性があるだろうか?

1/27-28

  • BioSample の type から必須な attribute を返す仕組の開発 (藤本)

1/27-30

1/28-30

  • DDBJ 登録時の /product qualifier 記載の推奨ルール を体系化する試み (真島)
    • 登録受付運用の標準化 (どうしても属人的な要素がある)
    • 参照辞書作成 -> PubDictionary
    • text mining 応用 -> 表記揺らぎを避ける

現状、公開している説明は間口を広くするために曖昧だが、推奨ルールの体系化と参照辞書に役立ちそうな対象を項目整理

1/29-30

  • DDBJ の運用課題の洗い出しをする (藤澤、藤本、森山、真島)
    • 例えば、DDBJ のデータベース間のデータ連携、登録者ベースの内部的管理
    • 書き散らし # 粗く、かつ、内部事情を含むので関係者以外には非公開
    • trad-BP-BS-SRA の公開状態 (status) を RDF 管理する試み

DDBJ運用データベースID/Accessionの共通RDFデータモデルのデザイン

Ddbj status.png

課題

  • submitter 情報統合と関係
  • entry version情報の管理と記述
  • Accession No.連番情報野取り扱い、skos:member, skos:collection, ddbj:AccessionSet
  • BioProject, BioSampleの親子関係の記載 - ddbj:dblink拡張
  • NCBI管理のtaxonomy id, locus_tag prefix

まとめ

初めは思い付きを挙げている brainstorming のような感じだったが、DDBJ の位置づけは

  • 基本の primary database の登録・公開を確実に続けていくこと
    • それにより、コンテンツを提供していく
    • また、その中で有用な手法、コンテンツを活用していく
    • 内外のデータベース間の連携を高める
    • そのための基盤整備を進める

といったところであろうか。

参考リンク


メンバー

  • 真島
  • 藤本
  • 森山
  • 望月
  • 藤澤
個人用ツール