Feature Engineering 정리 1

1. 모델과 특징의 관계를 파악하자

특징을 구성할땐 이걸 쓸껀지 말껀지 결정해야 한다. 정형데이터에서 대표모델인 GBDT는

다음과 같은 성질이 있다.

따라서 GBDT를 사용한다면 결측값과 범주형 변수를 다루기 쉬워 유리하다.

한편, 신경망 모델은 다음과 같은 특징이 있다.

따라서 신경망을 사용한다면 스케일링과 결측값 처리등 여러 전처리를 해주고 돌려야 한다.

딥러닝에서 레이블 인코딩보단 원핫인코딩이 주로 쓰이는 이유이기도 하다.

결측치가 존재하는 이유는 다양하다. 값을 얻는데 실패하거나 사용자가 입력폼에 입력을 안하는 등.

GBDT는 결측치를 그대로 사용할 수 있지만 이외의 여러 모델은 결측치를 채워야 한다.

물론 GBDT에서도 결측치를 적절히 채워서 더 성능을 올릴 수 있다.

결측치를 채우는 방식 또한 데이터에 따라 다르다.

여기서 결측값 존재 자체를 새로운 특징으로 만드는 점도 생각해볼만 하다.

예를 들어 행 데이터마다 결측값이 있는 변수의 개수를 센 후 이걸 분석하여 패턴을 찾을 수 있다면

새로운 특징으로 만들어줄 수 있다.

수치형 변수 분석시 여러 스케일링과 변환기법이 사용될 수 있다.

대표적인 기법 몇가지를 정리하면,

XGBoost, LightGBM 사용과 하이퍼파라미터 (0)	2023.02.11
머신러닝 자주 쓰이는 함수 정리 (1)	2023.02.05
혼자 공부하는 머신러닝 + 딥러닝 - Ch 5-3 (0)	2023.01.15
혼자 공부하는 머신러닝 + 딥러닝 - Ch 5-1 (0)	2023.01.13
혼자 공부하는 머신러닝 + 딥러닝 - Ch 4-1 (0)	2023.01.12