BH11.11/LOAD
提供:TogoWiki
目次 |
LOAD (Linked Open Alzheimer's disease Data)
晩期発症型アルツハイマー病(Late Onset Alzheimer's Disease)のLinked Open Dataを構築する。
コンセプト
http://www.slideshare.net/ogishima/linked-open-alzheimers-disease-data-load-10298597
TODO
- RDF形式のデータの生成
- データソース
- 遺伝子変異データ: AlzGene (http://www.alzgene.org/)
- 遺伝子発現データ: NCBI GEO/EBI ArrayExpress - 臨床情報・検査値
- シグナル伝達系: AlzPathway (http://alzpathway.org/)
- 薬剤データ: DrugBank
- 文献情報: 共起情報
- 既存のオントロジーからのプレディケートの選択
- データソース
- RDF形式のデータのストア
- Virtuosoへのインポート
- (SPARQLエンドポイントのセットアップ)
- 外部のLinked Open Dataと連携
- PDB/RDF (http://pdbj.org/rdf/)
- ユースケースの検討
- SPARQLのテンプレートの作成
- 外部のLODとの連携のクローラプログラムの作成
- ユーザインターフェイスの検討
BioHackathon 2011の修正
RDF形式のデータの修正
- 遺伝子変異データ: AlzGene (http://www.alzgene.org/)
- AlzGeneはアルツハイマー病疾患関連遺伝子のリスト
- Google RefineでAlzGene.tabからAlzGene.ttlを生成
- AlzGeneのリストに該当するかどうかをRDF化した。
- bh11ujicha:alzgeneで"1"だとアルツハイマー病の疾患関連遺伝子、"0"だとそうでない
- Named Graph IRI: http://open-biomed.org:8890/DAV/BH11Ujicha/AlzGene
- RDF file URL: http://open-biomed.org/BH11Ujicha/AlzGene.ttl
@prefix bh11ujicha: <http://open-biomed.org/BH11Ujicha/> . ... <http://bio2rdf.org/affymetrix:1007_s_at> rdfs:label "DDR1" ; bh11ujicha:AlzGene "0" . ...
- 遺伝子発現データ: NCBI GEO - 臨床情報・検査値
- GSE1297 (http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE1297)
- 検体数: アルツハイマー病死後脳31検体
- プラットホーム: Affymetrix Human Genome U133A Array
- Google RefineでGSE1297.ExprsFc.tabからGSE1297.ExprsFc.ttlを生成
- 臨床情報・検査値: アルツハイマー病の進行ステージ: Control, Incipient, Moderate, Severe
- 遺伝子発現量そのものはRDF化せず、進行ステージ間の(1)倍率変化(fc_)、(2) 統計解析のP値(p_) をRDF化した。
- 例えば、bh11ujicha:ExprsFc_Incipient_ControlはIncipient/Controlの倍率変化、bh11ujicha:ExprsPv_Incipient_ControlはIncipient/ControlのP値である。
- Named Graph IRI: http://open-biomed.org:8890/DAV/BH11Ujicha/GSE1297.ExprsFc
- RDF file URL: http://open-biomed.org/BH11Ujicha/GSE1297.ExprsFc.ttl
- 有意差解析で臨床情報を用いているので、今回は 臨床情報・検査値をRDF化するのは見送った。
- GSE1297 (http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE1297)
- 遺伝子機能アノテーションデータ: Affymetrixアノテーションファイル
- Google RefineでHG-U133A.na31.annot.csvからHG-U133A.na31.annot.ttl.GoogleRefineを生成
- $ ./ttl_split.pl HG-U133A.na31.annot.ttl.GoogleRefine | egrep -v "\-\-\-" > HG-U133A.na31.annot.ttl で//や///のフィールドを分割
- bio2rdfのURIをプロパティとした。bio2rdfのprefixは設定しなかった。
- Named Graph IRI: http://open-biomed.org:8890/DAV/BH11Ujicha/HG-U133A.na31.annot
- RDF file URL: http://open-biomed.org/BH11Ujicha/HG-U133A.na31.annot.ttl
- PubMedの共起情報
- PubMedで”Alzheimer’s disease”と共起する遺伝子のリストとその共起回数のデータ
- Google RefineでAlzheimer_PubMed.tabからAlzheimer_PubMed.ttlを生成
- bh11ujicha:PubMedは共起回数の値である。"0"では共起回数が0なので、共起していないことを表す。
- Named Graph IRI: http://open-biomed.org:8890/DAV/BH11Ujicha/Alzheimer_PubMed
- RDF file URL: http://open-biomed.org/BH11Ujicha/Alzheimer_PubMed.ttl
SPARQLエンドポイントとクエリ
http://open-biomed.org:8890/sparql/
- SPAQRLで
- 遺伝子発現で深刻なアルツハイマー病死後脳と健常者死後脳で2倍以上の倍率変化があり: bh11ujicha:ExprsFc_Severe_Controlで2.0以上
RDF形式のデータの生成
データソース
- 遺伝子変異データ: AlzGene (http://www.alzgene.org/)
- 遺伝子発現データ: NCBI GEO/EBI ArrayExpress - 臨床情報・検査値
- 遺伝子発現データ
MGED Ontology (http://bioportal.bioontology.org/ontologies/38801?p=terms) ?
- 臨床情報・検査値
- シグナル伝達系: AlzPathway (http://alzpathway.org/)
BioPAXに準拠
- 薬剤データ: DrugBank
- 文献情報: 共起情報
これらのデータソースをRDF化するためにAlzheimer's disease Ontologyを構築
オントロジーの構築
- 既存のオントロジーの調査
BioPortal Resources (http://bioportal.bioontology.org/resources)
SNOMED CT (http://bioportal.bioontology.org/ontologies/46116/?p=terms)
SNOMED CTの拡張でもよい?
- Alzheimer's disease Ontologyの構築
- PURLのドメインの取得(/ontology/alzheimer/)
PURL Domain Administration (http://purl.oclc.org/docs/domain.html)
PURL Help (http://purl.oclc.org/docs/purl.html)
- オントロジータームのリストアップ
- オントロジーの構造のデザイン
"Semantic Web for the Working Ontologist: Effective Modeling in RDFS and OWL" [1] 2nd Ed.があるらしい
邦訳も"実践セマンティックWeb―RDF/RDFS/OWLによるオントロジー設計ガイド" [2]]が出版されている
- Protegeによるオントロジーの構築 [3]
http://open-biomed.org/disease/alzheimer
RDF形式のデータのストア
- Virtuosoへのインポート
- (SPARQLエンドポイントのセットアップ)
外部のLinked Open Dataと連携
- PDB/RDF (http://pdbj.org/rdf/)
ユースケースの検討
- SPARQLのテンプレートの作成
- 外部のLODとの連携のクローラプログラムの作成
ユーザインターフェイスの検討
- Exhibit (http://www.simile-widgets.org/exhibit/) : Facet View
- ProtoViz (http://mbostock.github.com/protovis/)
BH11.11の成果
- 本プロジェクトの全体計画を議論した
- Alzheimer's disease Ontology Coreの構築
既存のオントロジーを調査し、SNOMED CTをもとに、ProtegeによりAlzheimer's disease Ontology Coreを構築した。
スケジュール
- RDF形式のデータの生成
- RDF形式のデータのストア
- 外部のLinked Open Dataと連携
- ユースケースの検討
- ユーザインターフェイスの開発
メンバー
- 荻島 創一(東京医科歯科大学)
- 片山 俊明(東京大学医科学研究所)
- 山本 泰智(ライフサイエンス統合データベースセンター)
- ...