BH13.13/DDBJ
提供:TogoWiki
目次 |
概要
DDBJ; DNA Data Bank of Japan は生命科学の研究活動をサポートするために、国際塩基配列データベースを協同運営する INSDC (International Nucleotide Sequence Database Collaboration) の一員として、塩基配列データを収集しています。あわせて、自由に利用可能な塩基配列データとスーパーコンピュータシステムを提供しています。
準備
RefGS : Reference Genome Suggest
課題
1/27
- BioSample の説明, BH13.13/TaxID2BioSampleID (真島)
- 資料1: DDBJの紹介
- 資料2: BioSample とその周辺
要約: BioSample は他の INSDC 配下のデータベースと同様、登録者の記載を受け付ける primary database であり、ID 体系はデータ登録毎がベースになる。 このため、BioSample の ID は taxonomy database がゲノムが登録された微生物に割り当てていた strain level taxonomy ID とは性質が異なり、一意に strain を指すものではない。
- BH13.13/ヒトゲノム・日本人ゲノムのRDFモデル設計 (藤本、真島)
IC ベースで制限公開の運用を行う JGA とは方向性が異なるが、DDBJ, DRA において、少数民族・古代人のゲノムデータなどのヒトゲノムを受け付ける際には、目的に応じた匿名化 (マスキング・撹乱など) が適正に行われたデータを視野に入れる可能性があるだろうか?
1/27-28
- BioSample の type から必須な attribute を返す仕組の開発 (藤本)
1/27-30
- db_xref link 整理、呼び出し (森山)
- @insdc.org (EBI管理)、@GenBank、@DDBJ の整合性
- 参照先の実データ database name + ID の link 先をマップ
1/28-30
- DDBJ 登録時の /product qualifier 記載の推奨ルール を体系化する試み (真島)
- 登録受付運用の標準化 (どうしても属人的な要素がある)
- 参照辞書作成 -> PubDictionary
- text mining 応用 -> 表記揺らぎを避ける
現状、公開している説明は間口を広くするために曖昧だが、推奨ルールの体系化と参照辞書に役立ちそうな対象を項目整理
1/29-30
- DDBJ の運用課題の洗い出しをする (藤澤、藤本、森山、真島)
- 例えば、DDBJ のデータベース間のデータ連携、登録者ベースの内部的管理
- 書き散らし # 粗く、かつ、内部事情を含むので関係者以外には非公開
- trad-BP-BS-SRA の公開状態 (status) を RDF 管理する試み
DDBJ運用データベースID/Accessionの共通RDFデータモデルのデザイン
課題
- submitter 情報統合と関係
- entry version情報の管理と記述
- Accession No.連番情報野取り扱い、skos:member, skos:collection, ddbj:AccessionSet
- BioProject, BioSampleの親子関係の記載 - ddbj:dblink拡張
- NCBI管理のtaxonomy id, locus_tag prefix
まとめ
初めは思い付きを挙げている brainstorming のような感じだったが、DDBJ の位置づけは
- 基本の primary database の登録・公開を確実に続けていくこと
- それにより、コンテンツを提供していく
- また、その中で有用な手法、コンテンツを活用していく
- 内外のデータベース間の連携を高める
- そのための基盤整備を進める
といったところであろうか。
参考リンク
メンバー
- 真島
- 藤本
- 森山
- 望月
- 藤澤