본문 바로가기

전체 글188

머신러닝 자주 쓰이는 함수 정리 * 공부하면서 계속 업데이트합니다 1. train_test_split train_test_split은 훈련데이터와 테스트데이터를 나눠주는 함수입니다. 기본변수는 X, y, test_size 비율, random_state 가 있습니다. from sklearn.model_selection import train_test_split X_train, X_test,y_train, y_test=train_test_split(X, y, test_size= , random_state= ) 2. KFold 회귀에서 교차검증시 사용합니다. KFold(n_splits=~)꼴로 객체를 생성하면, splits 개수만큼 fold를 나눠서 수행하게 됩니다. 나뉜 fold를 보기 위해선 kfold.split()를 사용하면 됩니다. .. 2023. 2. 5.
Feature Engineering 정리 1 1. 모델과 특징의 관계를 파악하자 특징을 구성할땐 이걸 쓸껀지 말껀지 결정해야 한다. 정형데이터에서 대표모델인 GBDT는 다음과 같은 성질이 있다. 수치의 크기자체에 의미를 두지 않는다. 즉, 스케일링 작업이 필요없다. 결측값(Null data)가 있어도 그냥 진행할 수 있다. 결정트리의 반복작업을 통해 변수간 상호작용을 잘 반영해준다. 따라서 GBDT를 사용한다면 결측값과 범주형 변수를 다루기 쉬워 유리하다. 한편, 신경망 모델은 다음과 같은 특징이 있다. 수치 자체에 영향을 받는다. 즉, 스케일링 작업이 필요하다. 결측값을 채우고 훈련해야 한다. 앞층 출력값을 반영하여 변수간 상호작용을 잘 반영해준다. 따라서 신경망을 사용한다면 스케일링과 결측값 처리등 여러 전처리를 해주고 돌려야 한다. 딥러닝에서.. 2023. 1. 27.
Hello World! 이 글은 저와 블로그에 대한 소개글입니다. 1. 본인 소개 제 이름은 최재훈입니다. 뜻은 "가장 향기나는 풀"입니다. 나이는 2000년생이고 서강대학교 컴퓨터공학과 21학번입니다 꿈은 컴퓨터분야 변리사입니다. 끈기와 열정이 있는 사람입니다 하고 싶은게 있으면 합니다. 그래서 후회는 거의 없는 편입니다 취미는 체스와 음악감상입니다 최근 관심사는 머신러닝, 운동입니다 2. 블로그 소개 이 블로그는 저의 일상과 공부를 기록하기 위해 만들었습니다 글을 정리하다보면 보다 정확한 정보를 제공하기 위해 더 공부하게 됩니다 PS카테고리에는 알고리즘 문제해설을 올립니다 CS카테고리에는 여러 전공지식과 저의 공부를 올립니다 일상은 그냥 하고 싶은 말들을 씁니다 주마다 2개이상은 올릴 계획입니다 피드백과 정보제공은 언제나 .. 2023. 1. 21.
혼자 공부하는 머신러닝 + 딥러닝 - Ch 5-3 Ch 5-3에서는 앙상블(Ensemble) 학습에 대해 배웁니다. 앙상블 학습은 우리가 공부한 다양한 알고리즘을 이용합니다. 여러개의 분류기를 만든 후 그 예측을 결합하여 결과를 도출하는 방법입니다. 앙상블 학습에는 대표적으로 Voting, Bagging, Boosting 이 있습니다. Voting은 말그대로 투표를 통해 가장 좋은 예측을 결과로 삼는 방식입니다. 서로 다른 여러 알고리즘으로 결과를 내고 좋은 성능인걸 선택하는 간단한 방식입니다. Bagging은 부트스트랩 샘플링으로 훈련한 뒤 결과로 삼는 방식입니다. 부트스트랩 샘플링이란 훈련세트에서 중복을 허락하여 무작위로 만드는 방법입니다. 이러한 데이터로 학습하는데 Voting과 달리 한 알고리즘으로만 훈련합니다. 이후 평균치를 결과로 삼는 방식입.. 2023. 1. 15.