入門 機械学習による異常検知―Rによる実践ガイド をPythonで実装
ホテリング理論に基づく外れ値検知。
観測データが単一の正規分布に従うと仮定した場合の、確率分布のパラメータを最尤推定法で推定する。
複数の変数が独立に正規分布に従うと仮定した場合。
変数毎の異常度への影響度をSN値で表す。
正規分布以外の分布に従うデータに対する外れ値検知。
データをガンマ分布に当てはめて考える。ガンマ分布の確率密度関数のパラメータ(k,s)をモーメント法で推定する。
正常標本と異常標本の混合正規分布から、期待値-最大化法(EM法)によりそれぞれの正規分布のパラメータを推測する。
データ間の距離に基づく外れ値検知。
データ間の距離の比によって異常度を定義することにより、データの分布が一様でない場合にも対応できるようにする。
k近傍法に確率密度関数を導入した外れ値検知。
混合正規分布モデルによるクラスタリングによる外れ値検知。
サポートベクターマシーンを利用した外れ値検知。
主成分分析により、正常部分空間におけるデータの異常度を求めて外れ値検知を行う。
スライド窓により部分時系列ベクトルを生成し、部分時系列ベクトル間の距離により異常度を定義する。(最近傍法)