BH13.13/ヒトゲノム・日本人ゲノムのRDFモデル設計

提供:TogoWiki

2014年1月29日 (水) 22:40時点におけるOgishima (トーク | 投稿記録)による版
移動: 案内, 検索

目次

概要

ヒトゲノム・日本人ゲノムのRDFモデル設計

  • 日本人ゲノム(荻島, 片山, 村上, 真島), 少数民族ゲノム(松前)
  • 植物・微生物ゲノム(望月)

ゲノムのRDFモデル設計のための要件

VCFファイルの取り扱い

日本人ゲノム座標

日本人に特有の挿入配列などを取り扱えるように、GRCh38/hg20と相互運用性を保ちながら日本人ゲノム座標を取り扱えるようにする。

アクセスコントロール

日本人ゲノム

日本人ゲノムは匿名化のうえ限定的なアクセスで、下記の指針・ガイドラインに準拠する。

少数民族ゲノム

日本人ゲノムのアクセスコントロールに準拠するものの、希少な試料・情報ということもあり、この流通についてどうするかの課題がある。識別可能性の検討が進んでいるとのこと。

上記のアクセスコントロールを勘案し、RDFモデルに反映したほうがよいのではないか?

  • データの種別としては、メタ情報、統計情報、属性情報、ゲノム配列情報などが考えられる。
    • メタ情報、統計情報は公開できるが、属性情報、ゲノム配列情報はマスキングしたいところがあるなど
  • データアクセス権にしたがって、マスキングされてデータを利用できるようにしてはどうか?

ゲノムの識別可能性

識別可能性について、個票開示問題を例に分割の確率モデル(ピットマン分布; 2パラメータで記述できる分布で標本分布から母集団の分布を推定)とその交換可能性(exchangablity)および分割構造、ゲノムの識別可能性について議論した。

ゲノムのRDFモデル設計

パブリックではなく、限定アクセスのインハウスのRDFストアを前提に、ヒトゲノム・日本人ゲノムのRDFモデルをフルセットで設計する。

VCFファイルのRDF化

既存のリソース

  • BioInterchange
    • BioInterchangeでVCFファイルのRDF化のテスト
$ git clone https://github.com/BioInterchange/BioInterchange
$ BioInterchange/bin/biointerchange  -i biointerchange.vcf -r rdf.biointerchange.gfvo -f ./foo.vcf

新規にRDF化?

  • VCFファイルの行毎にIDを生成し、CHROM, POS, (dbSNPの)ID, REF, ALT, QUAL, FILTER, INFOの属性値をもたせる。
  • リファレンスゲノムをどういうURIで指定すればよいか?
    • ##reference=file:///seq/references/1000GenomesPilot-NCBI36.fastaを読み取り指定
    • 日本人ゲノムに特有の挿入配列はリファレンスゲノムを別に指定することで対応する。

VCFファイルの利用例

ゲノム関連リソースのRDFモデル設計

dbSNPのRDF化

既存のRDFリソースとしては、Mayo clinicでRDF化しているが、公開はしていないため、RDF化を行う必要がある。

オントロジー

RDF化

  • IDはidentifiers.orgのネームスペースで、オントロジーは上記のオントロジーでRDF化する。

TogoWSでJSONの取り出しはできる: http://togows.org/entry/snp/rs671.json

商用変異データベースのRDF化

dbSNPのRDF化を参考に今後検討する。

メンバー

  • 荻島創一(東北大学東北メディカル・メガバンク機構)
  • 片山俊明(ライフサイエンス統合データベースセンター)
  • 真島淳(国立遺伝学研究所 DDBJ)
  • 松前ひろみ(北里大学医学部)
  • 村上勝彦(産業技術総合研究所 創薬分子プロファイリング研究センター)
  • 望月孝子(国立遺伝学研究所 大量遺伝情報研究室)

(50音順)

参考リンク