BH14.14/MachineLearning

提供：TogoWiki

移動：案内, 検索

2015/2/4 瀧川、川島、片山

ディープラーニング・機械学習などを活用した大量データ処理

データに既存技術を適用する

データ

RDFのグラフまたはテキストマイニング

既存技術

値（数値）を使う
- がんの検査20項目の値（遺伝子発現など）でがんのリスクや隠れた因子を推定（教師あり学習）
  - 頻出しているデータを抽出する
    - ペアデータを関係学習（バスケット）
  - ストリーム処理 (semantic streaming)
    - 時刻ごとにトレンドが変わる処理
    - 選挙速報、医療ビッグデータ
    - 21世紀の季語を作る

テキストの共起しやすい単語を予測する
- ある単語を含むという条件で特徴ベクトルを作る
- 共起語をクラスタリングしてニューステキストをジャンル分け
- 各単語に各クラスタに入る確率をつける
- 日本語 Wikipedia に出現する全単語のコーパス
- クラスタ数は指定する

ディープラーニング
- 教師あり、教師なし学習（なしが流行っているが、なしのあとにありにすると精度が上がる）
- 通常はベクトルデータや画像が入力
  - 線形ベクトルに線形変換（並行移動と縮尺）を吸収してデータを学習
  - データはメモリに載る必要がある
- 応用例
  - 画像解析
  - kaggle: Merck の分子活性チャレンジ (molecular activity challange)
  - ゲノム配列でクロマチン構造などブロードに薄くある特徴、生物種の生息環境による配列特徴への影響？
- ニューラルネット
  - 入力ベクトルに各レイヤーでウェイトの値をかけ、次のレイヤへ
  - ある値以上かどうかという基準関数で判別し、次元を減らした次のレイヤーへ
  - 次元が上がる（ベクトルの長さが延びる）と、データが大量に必要→スパコン、GPU
- 学習したあとの機械の状態の解釈
  - 各レイヤが抽象度の違う概念を認識している
  - ディープラーニングを多段階に学習し直すことで猫まで
  - 教師あり学習の場合は結果を評価して学習
  - 教師なし学習の場合は入力データが出力されるように学習（評価関数は工夫できる）
- ツール
  - Pylearn2 は自動的に Mac の GPU を使うことができる
  - Word2Vec テキストラーニングツール（ワードクラスタリング）ディープラーニングにも
    - http://www.slideshare.net/unnonouno/20140206-statistical-semantics

TODO

TogoGenome (UniProt/PubChem) などからの統計情報の集計を行って全体からの位置づけがわかるDBを作る
TPPのデータの組み合わせから機械学習による知識発見（統合データ解析トライアル？）
ゲノム配列からのディープラーニングによる特徴抽出

BH14.14/MachineLearning

提供：TogoWiki

目次

ディープラーニング・機械学習などを活用した大量データ処理

データ

既存技術

TODO

表示

個人用ツール

案内

検索

ツールボックス