Anomaly detection(이상치 탐색)에 대해 알아보자. 이는 unsupervised learning의 하나지만, supervised의 특성도 갖비고 있다.

이상치 탐색은 주로 Fraud detection, Monitoring computers(in data center or server), Manufacturing problem 등에 사용된다.

Density Estimation

Untitled

기존의 test sample들의 feature의 평균에 가깝다면 우리는 이를 정상값이라고 판단할 수 있을 것이다.

Density estimation은 우리가 test할 샘플이 feature에 대해서 정상적일 확률 $p(x)$을 계산해서 판단한다. 이를 우리는 거리로 판단 가능할 것이다. 즉, 식으로 나타내면 다음과 같다.

$p(x_{test})<\epsilon$ → anomaly

Gaussian Distribution

정규분포라고도 불리는 gaussian distribution에 대해 알아보자.

$x$ ~ $N(u,\sigma^2)$ 로 표현하며, 이때 u는 평균, $\sigma$는 표준편차(standard deviation)을 의미한다.

자세한 설명은 생략한다(기초 통계 내용과 중복).

Untitled

다만, 표준편차를 구할때 feature의 개수를 m이라 하면 m으로 나누는 경우와 m-1을 사용하는 경우가 있는데, 수학적으로는 이는 큰 차이가 있지만, CS에서는 이를 대다수 무시할 정도로 작은 차이라고 본다(dataset의 갯수가 대다수 많기 때문에 그런거로 추측)

Algorithm

알고리즘은 아래의 순서로 이루어진다.

  1. 비정상 데이터를 찾기 위한 feature $x_i$를 고른다.
  2. 각 feature의 평균과 분산을 고른다( $u_j = \frac{1}{m}\sum^m_{i=1}x_j^{(i)} // \sigma^2_j = \frac{1}{m}\sum^m_{i=1}(x_j^{(i)}-u_j)^2$ )