データマイニング

予測や分類に役立つデータマイニングの概要をまとめた。
データマイニングとは
大規模、大量のデータや情報の中から有益な法則や関係性を見出す一連の処理。これまで経験者、熟練者のみが行って来た「知識発見」の作業が自動化できる可能性がある。データマイニングではその目的に応じて適切な分析手法を用いる。
データマイニングと統計分析の違い
取り扱う情報の質と量が大きく異なる。
- 統計分析
- 小さい情報量から世界の姿を知る
- 仮説検証、事後検証型
- データマイニング
- 膨大な情報のなかから有意な情報を見つけ出す
- リアルタイムで分析できる
- 仮説探索、未来予測型
統計分析はデータを収集する時点で情報の取捨選択が行われるため、理解の範疇を越える法則の発見や検証を行うことができない。従来の統計分析は経験者、熟練者のみが行うことができる分析であったといえる。
データマイニングの実践例
小売 |
|
---|---|
保険、金融 |
|
メーカー、卸売 |
|
製造 |
|
その他 |
|
データマイニングの手順
- 現状の確認と目的の設定
- データを集める(新たに集める、またはすでに存在するデータを転用する)
- 不要な情報を削除する(欠損値の発見、異常値の除去)
- 仮説を立てる(適当な切り口であたりをつける)
- 分析(複数の情報にまたがる法則を炙り出す)
- 検証する
- 自動化
データマイニングで用いる分析手法
予測 | 決定木分析、ニューラルネット、回帰分析、判別分析、ロジスティック回帰分析 |
---|---|
分類 | 自己組織化マップ、クラスター分析、ニューラルネット、決定木分析、主成分分析、コレスポンデンス分析 |
関連発見 | 連関規則、主成分分析、時系列パターン分析、コレスポンデンス分析 |
回帰分析(単回帰分析、重回帰分析)
漠然とした情報群の中から関係を表す式を推計する。最小二乗法を用いる。
回帰分析の例
あるクラスの生徒の数学と理科における成績の関係性を見出す。
ロジスティック回帰分析
回帰分析では取り扱えないデータ(正規分布に従わない確率値など)を分析できる。
ロジスティック回帰分析の例
血中のコレステロール値と成人病発症の確率の関係性を見出す。
ニューラルネット
抽象化した神経細胞ネットワークを模した分析方法。過去のデータをもとに学習を繰り返し、予測に利用する。
ニューラルネットの例
商圏の世帯数、最寄り駅の利用者数、世代別人口分布から出店するかどうかを判断する。
決定木分析(デシジョンツリー)
定性的な情報を分岐ごとに分類し、判断の基準とする。複雑なデータを簡単な構造に変換することができる。
決定木分析の例
ダイレクトメールの応答率が職業、性別、年齢でどう変化するか分析する。
クラスター分析
データの類似度によってグループ(クラスター)化を行う。ユークリッド距離などを用いる。
クラスター分析の例
商品をメーカー別ではなく、利用者の嗜好別で分類する。
自己組織化マップ
情報の類似度をマップ上での距離で表現する。様々な高次元データを予備知識なしに分類できる。
自己組織化マップの例
通販利用者を性別、年収、購入商品、利用頻度などで分類する。
連関規則
「Aが起こるとBが発生する」(A→B)という規則を見つける。Aの方を「ルールヘッド」、Bの方を「ルールボディ」という。
連関規則の例
雨の日に売上が上がる商品を見出す。
判別分析
データをいくつかのグループに分けることができたとき、新しく得られたデータがどのグループに属するか判別する基準を得る。
判別分析の例
入試の合否判定を行う。
主成分分析
複数の変数間の相関を少数の合成変数で説明する。
主成分分析の例
スポーツテスト(50m走、幅跳び、反復横跳び、1500m走)の結果から総合的に運動能力の高い人を見出す。
コレスポンデンス分析
カテゴリー間の関係を視覚化する。複数のデータ間の類似度や関係の深さを調べることができる。
コレスポンデンス分析の例
「パスサッカーかカウンターサッカーか」「選手年俸総額の高低」という2変数間のクロス集計でサッカーチームを分析する。
時系列パターン分析
時系列に取るパターンを発見する。
時系列パターン分析の例
ある商品を買った利用者が次に何を買う可能性が高いかを分析する。
データマイニングの問題点
- 扱う情報量が膨大である
- 個人で実行するには厳しい場合も
- 見つけた法則を判断するのは分析者である
- 判断まではデータマイニングで行うことができない
- 見つけた法則が有益であるとは限らない
- 自明の法則しか見つからない場合も
- 法則の原因を説明できない
- 経験則は導けるがメカニズムが理解できるわけではない
参考
記事のデータ
文責 | |
---|---|
公開日 | 2011年7月1日 |
カテゴリー | |
タグ | 企画と戦略/分析/情報を利用する/情報を集める/技術と手法/用語 |
関連する記事 |