BH16.12/MachineLearning

提供:TogoWiki

(版間での差分)
移動: 案内, 検索
(データセット)
34行: 34行:
* これにMeSHのRDFを加える? https://id.nlm.nih.gov/mesh/  
* これにMeSHのRDFを加える? https://id.nlm.nih.gov/mesh/  
** MeSH RDF trivia
** MeSH RDF trivia
 +
*** 超最新版のURI https://id.nlm.nih.gov/mesh/D017538
*** 最新版のURL http://id.nlm.nih.gov/mesh/D017538
*** 最新版のURL http://id.nlm.nih.gov/mesh/D017538
*** 2016年版のURL http://id.nlm.nih.gov/mesh/2016/D017538 <- "/2016" が余分に入る。
*** 2016年版のURL http://id.nlm.nih.gov/mesh/2016/D017538 <- "/2016" が余分に入る。

2016年12月14日 (水) 01:57時点における版

BH16.12

JSTシソーラス - MeSH - 遺伝子 - 様々な特徴 を学習して、遺伝子と表現型(病気など)のアノテーション(関係)を見つける機械学習 (AI) をつくる

  • 参加者:金城・片山
  • サポート:渡辺・櫛田


目次

特徴ベクトル

  • JSTシソーラスのRDFから特徴ベクトルを作成
    • ランダムウォークでタームごとの URI 周辺のグラフパターンを学習
    • ターム毎に特徴ベクトルを生成
  • 遺伝子アノテーションの特徴ベクトルを生成
    • UniProtやTogoGenomeのエントリからMeSHを含むリンクを抽出
    • MeSHとJSTのタームの対応を学習

データセット

  • 遺伝子アノテーション
    • TogoGenome, DDBJ, PDBj, UniProt などの RDF から、遺伝子の特徴に関わるトリプルと MeSH へのリンクを収集

機械学習

DeepWalk

  1. Robert の前処理プログラム RDFWrapper がうまく動かない。Java のライブラリの問題?→しょうがないので、自前で前処理プログラムを作り、originalのDeepWalkプログラムを使うことにする。
  2. OCaml RDF libraryの都合により、ntriples -> turtleに変換。(rapper を使ったが、文字コードの問題で一部トリプルが省かれるみたい。)
  3. jst-mesh2016.ntとmesh2016.ntをマージしたグラフのデータを作った。ノード数 5,401,382
  4. DeepWalkを走らせてベクトルを作り始めた(2016/12/13 3PMごろ)。→まだ終わらない(17:52)

参考

個人用ツール