BH14.14/MachineLearning

提供:TogoWiki

移動: 案内, 検索

2015/2/4 瀧川、川島、片山

目次

ディープラーニング・機械学習などを活用した大量データ処理

データに既存技術を適用する

データ

  • RDFのグラフまたはテキストマイニング

既存技術

  • 値(数値)を使う
    • がんの検査20項目の値(遺伝子発現など)でがんのリスクや隠れた因子を推定(教師あり学習)
      • 頻出しているデータを抽出する
        • ペアデータを関係学習(バスケット)
      • ストリーム処理 (semantic streaming)
        • 時刻ごとにトレンドが変わる処理
        • 選挙速報、医療ビッグデータ
        • 21世紀の季語を作る
  • テキストの共起しやすい単語を予測する
    • ある単語を含むという条件で特徴ベクトルを作る
    • 共起語をクラスタリングしてニューステキストをジャンル分け
    • 各単語に各クラスタに入る確率をつける
    • 日本語 Wikipedia に出現する全単語のコーパス
    • クラスタ数は指定する
  • ディープラーニング
    • 教師あり、教師なし学習(なしが流行っているが、なしのあとにありにすると精度が上がる)
    • 通常はベクトルデータや画像が入力
      • 線形ベクトルに線形変換(並行移動と縮尺)を吸収してデータを学習
      • データはメモリに載る必要がある
    • 応用例
      • 画像解析
      • kaggle: Merck の分子活性チャレンジ (molecular activity challange)
      • ゲノム配列でクロマチン構造などブロードに薄くある特徴、生物種の生息環境による配列特徴への影響?
    • ニューラルネット
      • 入力ベクトルに各レイヤーでウェイトの値をかけ、次のレイヤへ
      • ある値以上かどうかという基準関数で判別し、次元を減らした次のレイヤーへ
      • 次元が上がる(ベクトルの長さが延びる)と、データが大量に必要→スパコン、GPU
    • 学習したあとの機械の状態の解釈
      • 各レイヤが抽象度の違う概念を認識している
      • ディープラーニングを多段階に学習し直すことで猫まで
      • 教師あり学習の場合は結果を評価して学習
      • 教師なし学習の場合は入力データが出力されるように学習(評価関数は工夫できる)
    • ツール

TODO

  • TogoGenome (UniProt/PubChem) などからの統計情報の集計を行って全体からの位置づけがわかるDBを作る
  • TPPのデータの組み合わせから機械学習による知識発見(統合データ解析トライアル?)
  • ゲノム配列からのディープラーニングによる特徴抽出
個人用ツール