$h(\theta)$의 결과가 좋지 않을때 어떻게 해야할까?

  1. 더 많은 학습데이터 모으기 → 잘 작동하지 않을 때도 있다!
  2. Feature의 개수를 줄이거나, 혹은 새로운 feature을 만들어낸다
  3. Adding polynomial features($x^2, x_1x_2$)
  4. 람다를 감소시키거나 증가시김

⇒ 이 중 어떤 방법을 사용할지는 그저 느낌임

Diagnostic: 무엇이 잘 작동하는지 확인할 수 있는 방법

Overfitting & underfitting Problem

Overfitting을 어떻게 판단할까?

parameter가 많아질수록 plot을 그릴 수는 없다

→ Split the data set as Training set & Test set(7:3 정도)

→ Test set의 $J_{test}(\theta)$를 계산 이때, classfircation과 linear regression에 따라 식을 다르게 적용(classification은 0,1로 에러 발생시 1로 계산 후 m으로 나눈다)

Model selection problem

d= degree of polynomial

Degree, 적합한 모델의 차수를 어떻게 결정할까? 간단하다 한번 더 test하면 된다.

즉 위의 overfitting 판단 처럼 이번에는 Training set 60%, Cross validation set 20%, Test set 20%로 나눈다.

이후 각각 차수에 해당하는 $h(\theta)$의 theta를 training set로 구한 후 이를 cross valation set로 테스트해서 가장 적합한 d를 구한다.

이후 test set으로 overfitting을 시험한다.