BH11.11/LOAD

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
 
32行: 32行:
== BioHackathon 2011の修正==
== BioHackathon 2011の修正==
-
=== RDF形式のデータの修正 ===
+
[[BH11.11/LOAD/BioHackathon2011|BioHackathon 2011の修正]]
-
* 遺伝子変異データ: AlzGene (http://www.alzgene.org/)
+
-
** AlzGeneはアルツハイマー病疾患関連遺伝子のリスト
+
-
** Google RefineでAlzGene.tabからAlzGene.ttlを生成
+
-
** AlzGeneのリストに該当するかどうかをRDF化した。
+
-
*** bh11ujicha:alzgeneで"1"だとアルツハイマー病の疾患関連遺伝子、"0"だとそうでない
+
-
** Named Graph IRI: http://open-biomed.org:8890/DAV/BH11Ujicha/AlzGene
+
-
** RDF file URL: http://open-biomed.org/BH11Ujicha/AlzGene.ttl
+
-
@prefix bh11ujicha: <http://open-biomed.org/BH11Ujicha/> .
+
-
...
+
-
<http://bio2rdf.org/affymetrix:1007_s_at> rdfs:label "DDR1" ;
+
-
        bh11ujicha:AlzGene "0" .
+
-
...
+
-
* 遺伝子発現データ: NCBI GEO - 臨床情報・検査値
+
-
** GSE1297 (http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE1297)
+
-
*** 検体数: アルツハイマー病死後脳31検体
+
-
*** プラットホーム: Affymetrix Human Genome U133A Array
+
-
*** Google RefineでGSE1297.ExprsFc.tabからGSE1297.ExprsFc.ttlを生成
+
-
*** 臨床情報・検査値: アルツハイマー病の進行ステージ: Control, Incipient, Moderate, Severe
+
-
*** 遺伝子発現量そのものはRDF化せず、進行ステージ間の(1)倍率変化(fc_)、(2) 統計解析のP値(p_) をRDF化した。
+
-
**** 例えば、bh11ujicha:ExprsFc_Incipient_ControlはIncipient/Controlの倍率変化、bh11ujicha:ExprsPv_Incipient_ControlはIncipient/ControlのP値である。
+
-
*** Named Graph IRI: http://open-biomed.org:8890/DAV/BH11Ujicha/GSE1297.ExprsFc
+
-
*** RDF file URL: http://open-biomed.org/BH11Ujicha/GSE1297.ExprsFc.ttl
+
-
*** 有意差解析で臨床情報を用いているので、今回は 臨床情報・検査値をRDF化するのは見送った。
+
-
* 遺伝子機能アノテーションデータ: Affymetrixアノテーションファイル
+
-
** Google RefineでHG-U133A.na31.annot.csvからHG-U133A.na31.annot.ttl.GoogleRefineを生成
+
-
** $ ./ttl_split.pl HG-U133A.na31.annot.ttl.GoogleRefine | egrep -v "\-\-\-" > HG-U133A.na31.annot.ttl で//や///のフィールドを分割
+
-
** bio2rdfのURIをプロパティとした。bio2rdfのprefixは設定しなかった。
+
-
** Named Graph IRI: http://open-biomed.org:8890/DAV/BH11Ujicha/HG-U133A.na31.annot
+
-
** RDF file URL: http://open-biomed.org/BH11Ujicha/HG-U133A.na31.annot.ttl
+
-
* PubMedの共起情報
+
-
** PubMedで”Alzheimer’s disease”と共起する遺伝子のリストとその共起回数のデータ
+
-
** Google RefineでAlzheimer_PubMed.tabからAlzheimer_PubMed.ttlを生成
+
-
*** bh11ujicha:PubMedは共起回数の値である。"0"では共起回数が0なので、共起していないことを表す。
+
-
** Named Graph IRI: http://open-biomed.org:8890/DAV/BH11Ujicha/Alzheimer_PubMed
+
-
** RDF file URL: http://open-biomed.org/BH11Ujicha/Alzheimer_PubMed.ttl
+
-
 
+
-
=== SPARQLエンドポイントとクエリ ===
+
-
http://open-biomed.org:8890/sparql/
+
-
* SPAQRLで
+
-
** 遺伝子発現で深刻なアルツハイマー病死後脳と健常者死後脳で2倍以上の倍率変化があり: bh11ujicha:ExprsFc_Severe_Controlで2.0以上
+
-
**
+
== RDF形式のデータの生成 ==
== RDF形式のデータの生成 ==

2011年11月26日 (土) 01:33時点における最新版

目次

LOAD (Linked Open Alzheimer's disease Data)

晩期発症型アルツハイマー病(Late Onset Alzheimer's Disease)のLinked Open Dataを構築する。

コンセプト

http://www.slideshare.net/ogishima/linked-open-alzheimers-disease-data-load-10298597

LOAD concept.003.jpg LOAD concept.004.jpg

LOAD concept.007.jpg LOAD concept.008.jpg

TODO

  1. RDF形式のデータの生成
    • データソース
      • 遺伝子変異データ: AlzGene (http://www.alzgene.org/)
      • 遺伝子発現データ: NCBI GEO/EBI ArrayExpress - 臨床情報・検査値
      • シグナル伝達系: AlzPathway (http://alzpathway.org/)
      • 薬剤データ: DrugBank
      • 文献情報: 共起情報
    • 既存のオントロジーからのプレディケートの選択
  2. RDF形式のデータのストア
    • Virtuosoへのインポート
    • (SPARQLエンドポイントのセットアップ)
  3. 外部のLinked Open Dataと連携
  4. ユースケースの検討
    • SPARQLのテンプレートの作成
    • 外部のLODとの連携のクローラプログラムの作成
    • ユーザインターフェイスの検討

BioHackathon 2011の修正

BioHackathon 2011の修正

RDF形式のデータの生成

データソース

  • 遺伝子変異データ: AlzGene (http://www.alzgene.org/)
  • 遺伝子発現データ: NCBI GEO/EBI ArrayExpress - 臨床情報・検査値
    • 遺伝子発現データ

MGED Ontology (http://bioportal.bioontology.org/ontologies/38801?p=terms) ?

BioPAXに準拠

  • 薬剤データ: DrugBank
  • 文献情報: 共起情報

これらのデータソースをRDF化するためにAlzheimer's disease Ontologyを構築

オントロジーの構築

  • 既存のオントロジーの調査

BioPortal Resources (http://bioportal.bioontology.org/resources)
SNOMED CT (http://bioportal.bioontology.org/ontologies/46116/?p=terms)
SNOMED CTの拡張でもよい?

  • Alzheimer's disease Ontologyの構築
    • PURLのドメインの取得(/ontology/alzheimer/)

PURL Domain Administration (http://purl.oclc.org/docs/domain.html)
PURL Help (http://purl.oclc.org/docs/purl.html)

    • オントロジータームのリストアップ
    • オントロジーの構造のデザイン

"Semantic Web for the Working Ontologist: Effective Modeling in RDFS and OWL" [1] 2nd Ed.があるらしい
邦訳も"実践セマンティックWeb―RDF/RDFS/OWLによるオントロジー設計ガイド" [2]]が出版されている

    • Protegeによるオントロジーの構築 [3]

http://open-biomed.org/disease/alzheimer

RDF形式のデータのストア

  • Virtuosoへのインポート
  • (SPARQLエンドポイントのセットアップ)

外部のLinked Open Dataと連携

ユースケースの検討

  • SPARQLのテンプレートの作成
  • 外部のLODとの連携のクローラプログラムの作成

ユーザインターフェイスの検討

BH11.11の成果

  • 本プロジェクトの全体計画を議論した
  • Alzheimer's disease Ontology Coreの構築

既存のオントロジーを調査し、SNOMED CTをもとに、ProtegeによりAlzheimer's disease Ontology Coreを構築した。

スケジュール

  • RDF形式のデータの生成
  • RDF形式のデータのストア
  • 外部のLinked Open Dataと連携
  • ユースケースの検討
  • ユーザインターフェイスの開発

メンバー

  • 荻島 創一(東京医科歯科大学)
  • 片山 俊明(東京大学医科学研究所)
  • 山本 泰智(ライフサイエンス統合データベースセンター)
  • ...
/mw/BH11.11/LOAD」より作成