BH12.12/SPARQLthon2/MetagenomeRDF
提供:TogoWiki
目次 |
メタゲノムRDFについて
SRAのメタゲノムデータから、その環境中に
- どのようなバクテリアがどれくらい存在するか
- どのような遺伝子がどれくらい存在するか
- その他
の情報を抽出したい
0. 用意するRDF
- メタゲノムメタデータRDF
- メタゲノムメタデータ-オントロジーマッピングRDF
- メタゲノム-個別ゲノムマッピングRDF
解析手法
- SRAメタゲノムデータをRefSeq個別ゲノムにマッピングして、メタゲノムメタデータと関連付ける
1. マッピング結果
SRR112676.47 HWI-EASXXX_0009_FC:1:1:1139:6253 length=36 0 + gi|162448269|ref|NC_010162.1| Sorangium cellulosum 'So ce 56' chromosome, complete genome 6920660 36 25 0.00024505 1
SRS155637をRefSeq個別ゲノムにマッピングした結果のRDF
1ゲノム1ファイル
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix ncbi_refseq: <http://www.ncbi.nlm.nih.gov/nuccore/> .
@prefix meo: <http://purl.jp/bio/11/meo/> .
ncbi_refseq:NC_012526 meo:topHit [
meo:querySample srs:SRS150404 ;
meo:mappedGene "Deide_00030" ;
meo:mappedReads 8.96807097690094e-07 ;
] .
ncbi_refseq:NC_012526 meo:topHit [
meo:querySample srs:SRS150404 ;
meo:mappedGene "Deide_00080" ;
meo:mappedReads 1.12100887211262e-06 ;
] .
ncbi_refseq:NC_012526 meo:topHit [
meo:querySample srs:SRS155649 ;
meo:mappedGene "Deide_16100" ;
meo:mappedReads 2.82295817787459e-06 ;
] .
meo:mappedReadsの値は、全てのゲノムにマッピング出来た全リード数で割っているので、非常に小さな値になっている。 double型等の型を付ける予定。 Hit数が0だったらそのトリプルは記述していない。 11サンプルで2000万トリプルになった。
2. メタゲノムのメタデータのRDF
SRSのXMLデータをRDFに変換
@prefix srs: <http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?sample=> .
@prefix ncbitaxon: <http://purl.org/obo/owl/NCBITaxon#> .
@prefix dc: <http://purl.org/dc/elements/1.1/> .
srs:DRS000196 dc:identifier ncbitaxon:NCBITaxon_410658 .
srs:DRS000196 srs:COMMON_NAME "soil metagenome" .
srs:DRS000196 srs:environmental_sample "A forest soil in the site of AIST Tsukuba, Japan" .
srs:DRS000196 srs:lat_lon "36.06N 140.17E" .
srs:ERS008227 dc:identifier ncbitaxon:NCBITaxon_408170 .
srs:ERS008227 srs:COMMON_NAME "human gut metagenome" .
srs:ERS008227 srs:host_taxid "9606" .
srs:ERS008227 srs:geographic_location__country_ "Burkina Faso:Boulkiemde province,Boulpon" .
srs:ERS008227 srs:geographic_location__latitude_and_longitude_ [
srs:VALUE "2.066667 W 12.65 N" ;
srs:UNITS "decimal degrees" ;
].
srs:ERS008227 srs:IHMC_ethnicity "black african" .
srs:ERS008227 srs:special_diet "vegeterian diet (derived from sorghum, millet, black eyed pea)" .
srs:ERS008227 srs:health_or_disease_status_of_specific_host_at_time_of_collection "no malnutrition" .
srs:ERS008227 srs:antibiotic_regimen "none known" .
srs:ERS008227 srs:sex "female" .
srs:ERS008227 srs:age [
srs:VALUE "1" ;
srs:UNITS "years" ;
].
srs:ERS008227 srs:birth_delivery "natural childbirth" .
srs:ERS008227 srs:disease_stage "no malnutrition" .
srs:ERS008227 srs:body_habitat "feces FMA:64183" .
片っ端からサンプルごとのメタデータを記述している。 数値データや範囲データ、文章等、やっかいなデータの集合。 今のところ、全メタゲノムサンプルで約124万トリプル。
3. メタゲノムとオントロジーとのマッピングRDF
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix srs: <http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?sample=> .
@prefix envo: <http://purl.bioontology.org/ontology/ENVO/> .
@prefix gaz: <http://purl.org/obo/owl/GAZ#> .
@prefix fma: <http://sig.uw.edu/fma#> .
@prefix dc: <http://purl.org/dc/elements/1.1/> .
@prefix ncbitaxon: <http://purl.org/obo/owl/NCBITaxon#> .
@prefix meo: <http://purl.jp/bio/11/meo/> .
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix owl: <http://www.w3.org/2002/07/owl#> .
srs:SRS155637 dc:description "Oil Spill Soil from Gulfport, MS - 05/31/10" .
srs:SRS155637 rdfs:label "SRS155637" .
srs:SRS155637 meo:environmentalMaterial [
dc:identifier meo:MEO_0000128 ;
rdfs:label "oil contaminated soil" ;
] .
srs:SRS155637 meo:place [
dc:identifier GAZ_00151682 ;
rdfs:label "Gulf Coast Region" ;
] .
srs:SRS150404 dc:description "Metagenomic DNA from Switch grass fiber attached community in cow rumen, 72 hour post incubation" .
srs:SRS150404 rdfs:label "SRS150404" .
srs:SRS150404 meo:environmentalFeature [
dc:identifier meo:MEO_0000046;
rdfs:label "rumen" ;
] .
srs:SRS150404 meo:hostTaxonomy [
dc:identifier ncbitaxon:NCBITaxon_9913 ;
rdfs:label "Bos taurus" ;
] .
SRS IDと、MEO, GAZETTEER, NCBI Taxonomyとのマッピング結果をRDFにしてある。 MEOはまだまだ構造もタームも変わる可能性があることに注意が必要。
これら、
- メタゲノムメタデータRDF
- メタゲノムメタデータ-オントロジーマッピングRDF
- メタゲノム-個別ゲノムマッピングRDF
の3つを使ったStanzaを何個か作りたいので、明日はSPARQLを色々と書きたい。