BH12.12/SPARQLthon2/MetagenomeRDF

提供:TogoWiki

移動: 案内, 検索

目次

メタゲノムRDFについて

SRAのメタゲノムデータから、その環境中に

  • どのようなバクテリアがどれくらい存在するか
  • どのような遺伝子がどれくらい存在するか
  • その他

の情報を抽出したい

0. 用意するRDF

  • メタゲノムメタデータRDF
  • メタゲノムメタデータ-オントロジーマッピングRDF
  • メタゲノム-個別ゲノムマッピングRDF

解析手法

  • SRAメタゲノムデータをRefSeq個別ゲノムにマッピングして、メタゲノムメタデータと関連付ける

1. マッピング結果

SRR112676.47 HWI-EASXXX_0009_FC:1:1:1139:6253 length=36 0 + gi|162448269|ref|NC_010162.1| Sorangium cellulosum 'So ce 56' chromosome, complete genome 6920660 36 25 0.00024505 1

SRS155637をRefSeq個別ゲノムにマッピングした結果のRDF

1ゲノム1ファイル

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .

@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

@prefix ncbi_refseq: <http://www.ncbi.nlm.nih.gov/nuccore/> .

@prefix meo: <http://purl.jp/bio/11/meo/> .

ncbi_refseq:NC_012526 meo:topHit [

meo:querySample srs:SRS150404 ;

meo:mappedGene "Deide_00030" ;

meo:mappedReads 8.96807097690094e-07 ;

] .

ncbi_refseq:NC_012526 meo:topHit [

meo:querySample srs:SRS150404 ;

meo:mappedGene "Deide_00080" ;

meo:mappedReads 1.12100887211262e-06 ;

] .

ncbi_refseq:NC_012526 meo:topHit [

meo:querySample srs:SRS155649 ;

meo:mappedGene "Deide_16100" ;

meo:mappedReads 2.82295817787459e-06 ;

] .

meo:mappedReadsの値は、全てのゲノムにマッピング出来た全リード数で割っているので、非常に小さな値になっている。 double型等の型を付ける予定。 Hit数が0だったらそのトリプルは記述していない。 11サンプルで2000万トリプルになった。

2. メタゲノムのメタデータのRDF

SRSのXMLデータをRDFに変換

@prefix srs: <http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?sample=> .

@prefix ncbitaxon: <http://purl.org/obo/owl/NCBITaxon#> .

@prefix dc: <http://purl.org/dc/elements/1.1/> .


srs:DRS000196 dc:identifier ncbitaxon:NCBITaxon_410658 .

srs:DRS000196 srs:COMMON_NAME "soil metagenome" .

srs:DRS000196 srs:environmental_sample "A forest soil in the site of AIST Tsukuba, Japan" .

srs:DRS000196 srs:lat_lon "36.06N 140.17E" .

srs:ERS008227 dc:identifier ncbitaxon:NCBITaxon_408170 .

srs:ERS008227 srs:COMMON_NAME "human gut metagenome" .

srs:ERS008227 srs:host_taxid "9606" .

srs:ERS008227 srs:geographic_location__country_ "Burkina Faso:Boulkiemde province,Boulpon" .

srs:ERS008227 srs:geographic_location__latitude_and_longitude_ [

srs:VALUE "2.066667 W 12.65 N" ;

srs:UNITS "decimal degrees" ;

].

srs:ERS008227 srs:IHMC_ethnicity "black african" .

srs:ERS008227 srs:special_diet "vegeterian diet (derived from sorghum, millet, black eyed pea)" .

srs:ERS008227 srs:health_or_disease_status_of_specific_host_at_time_of_collection "no malnutrition" .

srs:ERS008227 srs:antibiotic_regimen "none known" .

srs:ERS008227 srs:sex "female" .

srs:ERS008227 srs:age [

srs:VALUE "1" ;

srs:UNITS "years" ;

].

srs:ERS008227 srs:birth_delivery "natural childbirth" .

srs:ERS008227 srs:disease_stage "no malnutrition" .

srs:ERS008227 srs:body_habitat "feces FMA:64183" .

片っ端からサンプルごとのメタデータを記述している。 数値データや範囲データ、文章等、やっかいなデータの集合。 今のところ、全メタゲノムサンプルで約124万トリプル。


3. メタゲノムとオントロジーとのマッピングRDF

@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

@prefix srs: <http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?sample=> .

@prefix envo: <http://purl.bioontology.org/ontology/ENVO/> .

@prefix gaz: <http://purl.org/obo/owl/GAZ#> .

@prefix fma: <http://sig.uw.edu/fma#> .

@prefix dc: <http://purl.org/dc/elements/1.1/> .

@prefix ncbitaxon: <http://purl.org/obo/owl/NCBITaxon#> .

@prefix meo: <http://purl.jp/bio/11/meo/> .

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .

@prefix owl: <http://www.w3.org/2002/07/owl#> .


srs:SRS155637 dc:description "Oil Spill Soil from Gulfport, MS - 05/31/10" .

srs:SRS155637 rdfs:label "SRS155637" .

srs:SRS155637 meo:environmentalMaterial [

dc:identifier meo:MEO_0000128 ;

rdfs:label "oil contaminated soil" ;

] .

srs:SRS155637 meo:place [

dc:identifier GAZ_00151682 ;

rdfs:label "Gulf Coast Region" ;

] .

srs:SRS150404 dc:description "Metagenomic DNA from Switch grass fiber attached community in cow rumen, 72 hour post incubation" .

srs:SRS150404 rdfs:label "SRS150404" .

srs:SRS150404 meo:environmentalFeature [

dc:identifier meo:MEO_0000046;

rdfs:label "rumen" ;

] .

srs:SRS150404 meo:hostTaxonomy [

dc:identifier ncbitaxon:NCBITaxon_9913 ;

rdfs:label "Bos taurus" ;

] .

SRS IDと、MEO, GAZETTEER, NCBI Taxonomyとのマッピング結果をRDFにしてある。 MEOはまだまだ構造もタームも変わる可能性があることに注意が必要。

これら、

  • メタゲノムメタデータRDF
  • メタゲノムメタデータ-オントロジーマッピングRDF
  • メタゲノム-個別ゲノムマッピングRDF

の3つを使ったStanzaを何個か作りたいので、明日はSPARQLを色々と書きたい。

個人用ツール