CS22 Feature Engineering 정리 1 1. 모델과 특징의 관계를 파악하자 특징을 구성할땐 이걸 쓸껀지 말껀지 결정해야 한다. 정형데이터에서 대표모델인 GBDT는 다음과 같은 성질이 있다. 수치의 크기자체에 의미를 두지 않는다. 즉, 스케일링 작업이 필요없다. 결측값(Null data)가 있어도 그냥 진행할 수 있다. 결정트리의 반복작업을 통해 변수간 상호작용을 잘 반영해준다. 따라서 GBDT를 사용한다면 결측값과 범주형 변수를 다루기 쉬워 유리하다. 한편, 신경망 모델은 다음과 같은 특징이 있다. 수치 자체에 영향을 받는다. 즉, 스케일링 작업이 필요하다. 결측값을 채우고 훈련해야 한다. 앞층 출력값을 반영하여 변수간 상호작용을 잘 반영해준다. 따라서 신경망을 사용한다면 스케일링과 결측값 처리등 여러 전처리를 해주고 돌려야 한다. 딥러닝에서.. 2023. 1. 27. 혼자 공부하는 머신러닝 + 딥러닝 - Ch 5-3 Ch 5-3에서는 앙상블(Ensemble) 학습에 대해 배웁니다. 앙상블 학습은 우리가 공부한 다양한 알고리즘을 이용합니다. 여러개의 분류기를 만든 후 그 예측을 결합하여 결과를 도출하는 방법입니다. 앙상블 학습에는 대표적으로 Voting, Bagging, Boosting 이 있습니다. Voting은 말그대로 투표를 통해 가장 좋은 예측을 결과로 삼는 방식입니다. 서로 다른 여러 알고리즘으로 결과를 내고 좋은 성능인걸 선택하는 간단한 방식입니다. Bagging은 부트스트랩 샘플링으로 훈련한 뒤 결과로 삼는 방식입니다. 부트스트랩 샘플링이란 훈련세트에서 중복을 허락하여 무작위로 만드는 방법입니다. 이러한 데이터로 학습하는데 Voting과 달리 한 알고리즘으로만 훈련합니다. 이후 평균치를 결과로 삼는 방식입.. 2023. 1. 15. 혼자 공부하는 머신러닝 + 딥러닝 - Ch 5-1 Ch 5-1에서는 결정 트리에 대해 공부합니다. [ 문제 ] 와인의 데이터가 주어지고 target 데이터로 0(레드)과 1(화이트)이 주어집니다. 이들을 분류하는 기준을 알기 쉽게 만드는게 목표입니다. [ 접근 ] 기존의 머신러닝 모델은 복잡한 식으로 구성되어 있어 어떤 기준으로 나뉘는지 파악하기 어렵습니다. 결정트리는 이런 경우 해결책을 줍니다. [ 데이터 분석 ] 와인 데이터를 불러옵시다. import numpy as np import pandas as pd wine=pd.read_csv("https://bit.ly/wine_csv_data") wine.head() alcoholsugarpHclass 09.41.93.510.0 19.82.63.200.0 29.82.33.260.0 39.81.93.16.. 2023. 1. 13. 혼자 공부하는 머신러닝 + 딥러닝 - Ch 4-1 Ch 4-1에서는 로지스틱 회귀에 대해 공부합니다. 로지스틱 회귀는 선형회귀를 토대로 활성화 함수를 결합하여 이진분류를 하는데 사용됩니다. 또한 다중회귀를 토대로 다중분류도 가능합니다. [ 문제 ] 이번장에서 해결할 문제는 다음과 같습니다. 상품으로 생선 럭키백을 만듭니다. 럭키백에는 각 생선이 등장할 확률이 제시됩니다. 상품에 들어갈 생선의 크기, 무게, 길이, 높이 등이 주어질 때, 7종류의 생선에 대한 확률을 예측하는 문제입니다. [ 접근 ] 간단한 접근으로 KNN 알고리즘을 생각해볼까요? KNN 알고리즘으로 확률을 구한다면 각 생선이 나올 확률들이 우리가 정한 \(k\)값에 의존하게 됩니다. 예를 들어 \(k=4\)로 한다면, 확률은 항상 0, 1/4, 2/4, 3/4, 4/4 중 하나입니다. 생.. 2023. 1. 12. 이전 1 2 3 4 5 6 다음