BH14.14/MachineLearning
提供:TogoWiki
2015/2/4 瀧川、川島、片山
目次 |
ディープラーニング・機械学習などを活用した大量データ処理
データに既存技術を適用する
データ
- RDFのグラフまたはテキストマイニング
既存技術
- 値(数値)を使う
- がんの検査20項目の値(遺伝子発現など)でがんのリスクや隠れた因子を推定(教師あり学習)
- 頻出しているデータを抽出する
- ペアデータを関係学習(バスケット)
- ストリーム処理 (semantic streaming)
- 時刻ごとにトレンドが変わる処理
- 選挙速報、医療ビッグデータ
- 21世紀の季語を作る
- 頻出しているデータを抽出する
- がんの検査20項目の値(遺伝子発現など)でがんのリスクや隠れた因子を推定(教師あり学習)
- テキストの共起しやすい単語を予測する
- ある単語を含むという条件で特徴ベクトルを作る
- 共起語をクラスタリングしてニューステキストをジャンル分け
- 各単語に各クラスタに入る確率をつける
- 日本語 Wikipedia に出現する全単語のコーパス
- クラスタ数は指定する
- ディープラーニング
- 教師あり、教師なし学習(なしが流行っているが、なしのあとにありにすると精度が上がる)
- 通常はベクトルデータや画像が入力
- 線形ベクトルに線形変換(並行移動と縮尺)を吸収してデータを学習
- データはメモリに載る必要がある
- 応用例
- 画像解析
- kaggle: Merck の分子活性チャレンジ (molecular activity challange)
- ゲノム配列でクロマチン構造などブロードに薄くある特徴、生物種の生息環境による配列特徴への影響?
- ニューラルネット
- 入力ベクトルに各レイヤーでウェイトの値をかけ、次のレイヤへ
- ある値以上かどうかという基準関数で判別し、次元を減らした次のレイヤーへ
- 次元が上がる(ベクトルの長さが延びる)と、データが大量に必要→スパコン、GPU
- 学習したあとの機械の状態の解釈
- 各レイヤが抽象度の違う概念を認識している
- ディープラーニングを多段階に学習し直すことで猫まで
- 教師あり学習の場合は結果を評価して学習
- 教師なし学習の場合は入力データが出力されるように学習(評価関数は工夫できる)
- ツール
- Pylearn2 は自動的に Mac の GPU を使うことができる
- Word2Vec テキストラーニングツール(ワードクラスタリング)ディープラーニングにも
TODO
- TogoGenome (UniProt/PubChem) などからの統計情報の集計を行って全体からの位置づけがわかるDBを作る
- TPPのデータの組み合わせから機械学習による知識発見(統合データ解析トライアル?)
- ゲノム配列からのディープラーニングによる特徴抽出