BH11.11/LOAD/BioHackathon2011
提供:TogoWiki
BioHackathon 2011のフォローアップ
RDF形式のデータの修正
- 遺伝子変異データ: AlzGene (http://www.alzgene.org/)
- AlzGeneはアルツハイマー病疾患関連遺伝子のリスト
- Google RefineでAlzGene.tabからAlzGene.ttlを生成
- AlzGeneのリストに該当するかどうかをRDF化した。
- bh11ujicha:alzgeneで"1"だとアルツハイマー病の疾患関連遺伝子、"0"だとそうでない
- Named Graph IRI: http://open-biomed.org:8890/DAV/BH11Ujicha/AlzGene
- RDF file URL: http://open-biomed.org/BH11Ujicha/AlzGene.ttl
@prefix bh11ujicha: <http://open-biomed.org/BH11Ujicha/> . ... <http://bio2rdf.org/affymetrix:1007_s_at> rdfs:label "DDR1" ; bh11ujicha:AlzGene "0" . ...
- 遺伝子発現データ: NCBI GEO - 臨床情報・検査値
- GSE1297 (http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE1297)
- 検体数: アルツハイマー病死後脳31検体
- プラットホーム: Affymetrix Human Genome U133A Array
- Google RefineでGSE1297.ExprsFc.tabからGSE1297.ExprsFc.ttlを生成
- 臨床情報・検査値: アルツハイマー病の進行ステージ: Control, Incipient, Moderate, Severe
- 遺伝子発現量そのものはRDF化せず、進行ステージ間の(1)倍率変化(fc_)、(2) 統計解析のP値(p_) をRDF化した。
- 例えば、bh11ujicha:ExprsFc_Incipient_ControlはIncipient/Controlの倍率変化、bh11ujicha:ExprsPv_Incipient_ControlはIncipient/ControlのP値である。
- Named Graph IRI: http://open-biomed.org:8890/DAV/BH11Ujicha/GSE1297.ExprsFc
- RDF file URL: http://open-biomed.org/BH11Ujicha/GSE1297.ExprsFc.ttl
- 有意差解析で臨床情報を用いているので、今回は 臨床情報・検査値をRDF化するのは見送った。
- GSE1297 (http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE1297)
- 遺伝子機能アノテーションデータ: Affymetrixアノテーションファイル
- Google RefineでHG-U133A.na31.annot.csvからHG-U133A.na31.annot.ttl.GoogleRefineを生成
- $ ./ttl_split.pl HG-U133A.na31.annot.ttl.GoogleRefine > HG-U133A.na31.annot.ttl で//や///のフィールドを分割
- bio2rdfのURIをプロパティとした。bio2rdfのprefixは設定しなかった。
- Named Graph IRI: http://open-biomed.org:8890/DAV/BH11Ujicha/HG-U133A.na31.annot
- RDF file URL: http://open-biomed.org/BH11Ujicha/HG-U133A.na31.annot.ttl
- PubMedの共起情報
- PubMedで”Alzheimer’s disease”と共起する遺伝子のリストとその共起回数のデータ
- Google RefineでAlzheimer_PubMed.tabからAlzheimer_PubMed.ttlを生成
- bh11ujicha:PubMedは共起回数の値である。"0"では共起回数が0なので、共起していないことを表す。
- Named Graph IRI: http://open-biomed.org:8890/DAV/BH11Ujicha/Alzheimer_PubMed
- RDF file URL: http://open-biomed.org/BH11Ujicha/Alzheimer_PubMed.ttl
SPARQLエンドポイントとクエリ
http://open-biomed.org:8890/sparql/
- SPAQRLクエリ例
- 遺伝子発現で深刻なアルツハイマー病死後脳と健常者死後脳で
- 2倍以上の倍率変化があるプローブセットで : bh11ujicha:ExprsFc_Severe_Controlで2.0以上
- p < 0.0001以下のプローブセットで : bh11ujicha:ExprsPv_Severe_Controlで0.0001以下
- パスウェイでKEGG, GenMAPPのパスウェイデータベースで
- アポトーシスのパスウェイにのっているプローブセット : <http://bio2rdf.org/affymetrix_resource:Pathway>で"Apoptosis_KEGG"、"Apoptosis // GenMAPP", "Apoptosis_GenMAPP"
- PubMedの共起情報で
- 共起がない、すなわち共起回数が0のプローブセット : bh11ujicha:PubMedで0
- を同時に満たすプローブセットを抽出する。
- 遺伝子発現で深刻なアルツハイマー病死後脳と健常者死後脳で