BH13.13/ヒトゲノム・日本人ゲノムのRDFモデル設計
提供:TogoWiki
(版間での差分)
細 (→アクセスコントロール) |
|||
28行: | 28行: | ||
'''ゲノムの識別可能性''' | '''ゲノムの識別可能性''' | ||
- | |||
- | |||
==ゲノムのRDFモデル設計== | ==ゲノムのRDFモデル設計== |
2014年9月19日 (金) 01:57時点における最新版
目次 |
概要
ヒトゲノム・日本人ゲノムのRDFモデル設計
- 日本人ゲノム(荻島, 片山, 村上, 真島), 少数民族ゲノム(松前)
- 植物・微生物ゲノム(望月)
ゲノムのRDFモデル設計のための要件
VCFファイルの取り扱い
日本人ゲノム座標
日本人に特有の挿入配列などを取り扱えるように、GRCh38/hg20と相互運用性を保ちながら日本人ゲノム座標を取り扱えるようにする。
アクセスコントロール
日本人ゲノム
日本人ゲノムは匿名化のうえ限定的なアクセスで、下記の指針・ガイドラインに準拠する。
少数民族ゲノム
日本人ゲノムのアクセスコントロールに準拠するものの、希少な試料・情報ということもあり、この流通についてどうするかの課題がある。識別可能性の検討が進んでいるとのこと。
上記のアクセスコントロールを勘案し、RDFモデルに反映したほうがよいのではないか?
- データの種別としては、メタ情報、統計情報、属性情報、ゲノム配列情報などが考えられる。
- メタ情報、統計情報は公開できるが、属性情報、ゲノム配列情報はマスキングしたいところがあるなど
- データアクセス権にしたがって、マスキングされてデータを利用できるようにしてはどうか?
ゲノムの識別可能性
ゲノムのRDFモデル設計
パブリックではなく、限定アクセスのインハウスのRDFストアを前提に、ヒトゲノム・日本人ゲノムのRDFモデルをフルセットで設計する。
VCFファイルのRDF化
既存のリソース
- BioInterchange
- BioInterchangeでVCFファイルのRDF化のテスト
$ git clone https://github.com/BioInterchange/BioInterchange $ BioInterchange/bin/biointerchange -i biointerchange.vcf -r rdf.biointerchange.gfvo -f ./foo.vcf
- オントロジーとしてはBioInterchangeのGFVOを使用している。
- まだ完成しておらず、このコンバータを完成させる。
- VcfToRdf
- bio-vcf2rdf
- Bioruby-vcf VCFファイルのパーサー
新規にRDF化?
- VCFファイルの行毎にIDを生成し、CHROM, POS, (dbSNPの)ID, REF, ALT, QUAL, FILTER, INFOの属性値をもたせる。
- リファレンスゲノムをどういうURIで指定すればよいか?
- ##reference=file:///seq/references/1000GenomesPilot-NCBI36.fastaを読み取り指定
- 日本人ゲノムに特有の挿入配列はリファレンスゲノムを別に指定することで対応する。
VCFファイルの利用例
- VCF2Networks: applying Genotype Networks to Single Nucleotide Variants data
- VCF2Networks allows to parse a VCF file, and produce a tabular report of the Genotype Network properties of the file.
- https://bitbucket.org/dalloliogm/vcf2networks
ゲノム関連リソースのRDFモデル設計
dbSNPのRDF化
既存のRDFリソースとしては、Mayo clinicでRDF化しているが、公開はしていないため、RDF化を行う必要がある。
オントロジー
- SO, Single-Nucleotide Polymorphism (SNP) Ontologyを参考にdbSNPのオントロジー(dbSNP Ontology)を整備する。
RDF化
- IDはidentifiers.orgのネームスペースで、オントロジーは上記のオントロジーでRDF化する。
TogoWSでJSONの取り出しはできる: http://togows.org/entry/snp/rs671.json
商用変異データベースのRDF化
dbSNPのRDF化を参考に今後検討する。
メンバー
- 荻島創一(東北大学東北メディカル・メガバンク機構)
- 片山俊明(ライフサイエンス統合データベースセンター)
- 真島淳(国立遺伝学研究所 DDBJ)
- 松前ひろみ(北里大学医学部)
- 村上勝彦(産業技術総合研究所 創薬分子プロファイリング研究センター)
- 望月孝子(国立遺伝学研究所 大量遺伝情報研究室)
(50音順)