gazou6 機械学習の基礎

-------------------------

2.統計と機械学習の違い

統計と機械学習は理論的に共通する部分が多いですが、データに対する見方が異なります。

統計は「なぜそのような結果になったのか」を知るための分野です。すなわち、データを理解・説明するためにあります。

一方、機械学習は「どのような結果になるのか」を知るための分野です。すなわち、データを予測するためにあります。

例えば、z=ax+by+c という回帰式が得られた場合、統計では係数「a」「b」の大きさを比較して、特徴量(変数)xと、特徴量yのどちらがzに与える影響が大きいのかを調べます。
また、相関係数や信頼度を調べて、回帰式の性能を評価します。

一方、機械学習はあくまで結果の予測にこだわります。

モデルの特徴量がブラックボックスであっても、予測の性能がよければそれでよいという考え方です。

どの特徴量がどの程度重要なのかはさほど重視しません。

ディープラーニングなどでは、投入した特徴量の重要度を知ることはできません。

基本的に回帰分析など線形モデルに対しては特徴量の重要度を知ることはできますが、非線形モデルの場合はわからない場合が多いです。


統計学で扱うデータはサンプルサイズが比較的小さい場合が多いため、得られた回帰式の信頼度(p値)を必ずチェックします。
高い相関係数が得られたも、信頼度が低い場合は実用で用いることは少ないです。

機械学習は何万件という大量のサンプルを扱う場合が多いです。
このような大量データの場合、統計的に信頼度は自然と高くなるため敢えて信頼度を求めることはしません。
信頼度は高いという前提で解析を実施します。

実際、機械学習ライブラリィのscikit-learnではこの信頼度「p値」を取得するメソッドが用意されていません。


また、機械学習では予測精度を向上することが目的ですので、学習データと検証データ(未知データ)を分けて使用します。
学習データで学習したモデルを学習では使用していない検証データで性能を評価します。

同じ学習データで検証すると、高い性能を得ることができますが、それはあくまで学習データに対する性能であり、未知データに対する性能ではありません。すなわち機械学習で最も重要な「汎化性能」を評価できません。