BH11.11/LOAD

提供:TogoWiki

2011年11月26日 (土) 01:30時点におけるOgishima (トーク | 投稿記録)による版
移動: 案内, 検索

目次

LOAD (Linked Open Alzheimer's disease Data)

晩期発症型アルツハイマー病(Late Onset Alzheimer's Disease)のLinked Open Dataを構築する。

コンセプト

http://www.slideshare.net/ogishima/linked-open-alzheimers-disease-data-load-10298597

LOAD concept.003.jpg LOAD concept.004.jpg

LOAD concept.007.jpg LOAD concept.008.jpg

TODO

  1. RDF形式のデータの生成
    • データソース
      • 遺伝子変異データ: AlzGene (http://www.alzgene.org/)
      • 遺伝子発現データ: NCBI GEO/EBI ArrayExpress - 臨床情報・検査値
      • シグナル伝達系: AlzPathway (http://alzpathway.org/)
      • 薬剤データ: DrugBank
      • 文献情報: 共起情報
    • 既存のオントロジーからのプレディケートの選択
  2. RDF形式のデータのストア
    • Virtuosoへのインポート
    • (SPARQLエンドポイントのセットアップ)
  3. 外部のLinked Open Dataと連携
  4. ユースケースの検討
    • SPARQLのテンプレートの作成
    • 外部のLODとの連携のクローラプログラムの作成
    • ユーザインターフェイスの検討

BioHackathon 2011の修正

RDF形式のデータの修正

@prefix bh11ujicha: <http://open-biomed.org/BH11Ujicha/> .
...
<http://bio2rdf.org/affymetrix:1007_s_at> rdfs:label "DDR1" ;
       bh11ujicha:AlzGene "0" .
...
  • 遺伝子発現データ: NCBI GEO - 臨床情報・検査値
    • GSE1297 (http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE1297)
      • 検体数: アルツハイマー病死後脳31検体
      • プラットホーム: Affymetrix Human Genome U133A Array
      • Google RefineでGSE1297.ExprsFc.tabからGSE1297.ExprsFc.ttlを生成
      • 臨床情報・検査値: アルツハイマー病の進行ステージ: Control, Incipient, Moderate, Severe
      • 遺伝子発現量そのものはRDF化せず、進行ステージ間の(1)倍率変化(fc_)、(2) 統計解析のP値(p_) をRDF化した。
        • 例えば、bh11ujicha:ExprsFc_Incipient_ControlはIncipient/Controlの倍率変化、bh11ujicha:ExprsPv_Incipient_ControlはIncipient/ControlのP値である。
      • Named Graph IRI: http://open-biomed.org:8890/DAV/BH11Ujicha/GSE1297.ExprsFc
      • RDF file URL: http://open-biomed.org/BH11Ujicha/GSE1297.ExprsFc.ttl
      • 有意差解析で臨床情報を用いているので、今回は 臨床情報・検査値をRDF化するのは見送った。
  • 遺伝子機能アノテーションデータ: Affymetrixアノテーションファイル
  • PubMedの共起情報

SPARQLエンドポイントとクエリ

http://open-biomed.org:8890/sparql/

  • SPAQRLで
    • 遺伝子発現で深刻なアルツハイマー病死後脳と健常者死後脳で2倍以上の倍率変化があり: bh11ujicha:ExprsFc_Severe_Controlで2.0以上

RDF形式のデータの生成

データソース

  • 遺伝子変異データ: AlzGene (http://www.alzgene.org/)
  • 遺伝子発現データ: NCBI GEO/EBI ArrayExpress - 臨床情報・検査値
    • 遺伝子発現データ

MGED Ontology (http://bioportal.bioontology.org/ontologies/38801?p=terms) ?

BioPAXに準拠

  • 薬剤データ: DrugBank
  • 文献情報: 共起情報

これらのデータソースをRDF化するためにAlzheimer's disease Ontologyを構築

オントロジーの構築

  • 既存のオントロジーの調査

BioPortal Resources (http://bioportal.bioontology.org/resources)
SNOMED CT (http://bioportal.bioontology.org/ontologies/46116/?p=terms)
SNOMED CTの拡張でもよい?

  • Alzheimer's disease Ontologyの構築
    • PURLのドメインの取得(/ontology/alzheimer/)

PURL Domain Administration (http://purl.oclc.org/docs/domain.html)
PURL Help (http://purl.oclc.org/docs/purl.html)

    • オントロジータームのリストアップ
    • オントロジーの構造のデザイン

"Semantic Web for the Working Ontologist: Effective Modeling in RDFS and OWL" [1] 2nd Ed.があるらしい
邦訳も"実践セマンティックWeb―RDF/RDFS/OWLによるオントロジー設計ガイド" [2]]が出版されている

    • Protegeによるオントロジーの構築 [3]

http://open-biomed.org/disease/alzheimer

RDF形式のデータのストア

  • Virtuosoへのインポート
  • (SPARQLエンドポイントのセットアップ)

外部のLinked Open Dataと連携

ユースケースの検討

  • SPARQLのテンプレートの作成
  • 外部のLODとの連携のクローラプログラムの作成

ユーザインターフェイスの検討

BH11.11の成果

  • 本プロジェクトの全体計画を議論した
  • Alzheimer's disease Ontology Coreの構築

既存のオントロジーを調査し、SNOMED CTをもとに、ProtegeによりAlzheimer's disease Ontology Coreを構築した。

スケジュール

  • RDF形式のデータの生成
  • RDF形式のデータのストア
  • 外部のLinked Open Dataと連携
  • ユースケースの検討
  • ユーザインターフェイスの開発

メンバー

  • 荻島 創一(東京医科歯科大学)
  • 片山 俊明(東京大学医科学研究所)
  • 山本 泰智(ライフサイエンス統合データベースセンター)
  • ...
/mw/BH11.11/LOAD」より作成