공부/Algorithm

간단한 모델링 과정, 주의점

Chelsey 2022. 2. 14. 02:48
728x90

새로운 데이터가 들어왔을 때 기존 데이터와 비교해서 어떠한 판단을 예측하는 것이라고 한다. 

이러한 데이터를 바탕으로 모델을 만들고 데이터를 입력하면 결과가 도출된다.

 

그 과정은 아래와 같이 차례로 볼 수 있다.

위 과정에서 analysis, 전처리, classify 하는 과정은 프로젝트를 진행하면서, 일괄적으로 위와 같은 과정은 아니라는 것을 알았다. 정규화를 시키고 전처리를 하거나, 전처리를 하고 정규화를 시킬수도 있고, 모든 처리가 끝난 후 시각화하여 데이터를 살펴볼 수도있었다.

데이터가 많을 수록 모델의 정확도가 높아지기 때문에 데이터의 일부분이 손상되어도 최대한 살릴수 있는만큼 살려서 사용하기도 했었다. 그리고 데이터의 유무가 굉장히 중요하고, 데이터가 없으면 만들어내야하는 상황에서 파생변수를 만들 때, 해당 데이터에 대한 이해가 필요했고, 이는 정보를 찾아보게 만드는 역할을 했다. (근거를 바탕으로 기준을 세워야하므로...) 하지만 만약 여러 분야에 대한 데이터를 다루는 일을 하게될때에는 시간이 부족할 수도 있는데, 어떻게 해결해야하는 걸까

 

모델 생성시 주의해야하는 두가지가 있다. 데이터의 특성 때문에 나타나는 증상인데 (데이터를 이용해 모델을 만드므로)

1. 과소적합 underfitting

데이터에서 특징을 충분히 찾지 못한채로 Model training

2. 과대적합 overfitting

필요이상의 특징으로 Model training

train data의 정확도 >>>>> test data 정확도

 

과대적합 피하는 방법은 아래와 같다.

  • 충분히 많은 data 확보
  • 데이터가 부족하고 + 특징이 많은 경우 자주 발생됨 -> 특징을 줄이자
  • 특징들의 수치값 정규화 -> 편향성 감소
  • 딥러닝에서는 조기종료(EarlyStopping), dropout 다양한 조합을 랜덤으로 계속해서 시도

 

728x90