취준생대상

머신러닝에서 실제 데이터에서 성능이 안좋다면? - 면접질문

Pro.Dev 2025. 3. 25. 09:52
반응형

머신러닝 모델을 학습시켰을 때, 학습 데이터에서는 성능이 매우 좋은데 실제 데이터에서는 성능이 안좋습니다. 이때 어떻게 해야 합니까?


 

심플대답

 

학습 데이터 성능은 좋은데 실제 데이터에서는 성능이 떨어지는 경우, 보통 오버피팅을 의심합니다.
저는 에포크 수가 너무 많으면 과적합될 수 있으므로, 검증 데이터의 성능을 기준으로 Early Stopping을 적용해 에포크 수를 조절합니다.
그리고 정규화나 모델 단순화 같은 기법도 함께 고려합니다


조금 자세히 

 이런 경우는 모델이 학습 데이터에는 과도하게 잘 맞지만, 실제 데이터에서는 일반화가 안 되는 오버피팅 상황이라고 판단합니다.

저는 먼저 검증 데이터(validation set)에서의 성능 변화를 관찰하면서 학습 과정을 모니터링합니다.

특히, 에포크(epoch) 수가 많아질수록 학습 데이터 성능은 계속 좋아지지만, 검증 데이터 성능이 떨어지기 시작하면 과적합의 신호로 보고,

이런 경우에는 Early Stopping 기법을 적용해서 에포크를 조절합니다. 즉, 검증 성능이 최고일 때 학습을 조기 종료해서 모델이 더 이상 과도하게 학습되지 않도록 합니다.

또한 정규화(Regularization), Dropout 같은 오버피팅 방지 기법도 함께 고려해서 모델이 새로운 데이터에도 잘 작동하도록 일반화 능력을 높이려 노력합니다.


반응형