본문 바로가기

네이버클라우드202

AI 7일차 (2023-05-16) 인공지능 기초 _머신러닝 - outliers (아웃라이어) outliers (아웃라이어) ㄴ IQR : 사분위 값의 편차를 이용하여 이상치를 걸러내는 방법 ㄴ 전체 데이터를 정렬하여 이를 4등분하여 Q1(25%), Q2(50%), Q3(75%), Q4(100%) 중 IQR는 Q3 ~ Q1 사이가 됨 ml18_outliers.py import numpy as np oliers = np.array([-50, -10, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 50]) def outliers(data_out) : quartile_1, q2, quartile_3 = np.percentile(data_out, [25, 50, 75]) print('1사분위 : ', quartile_1) print('2사분위 : ', q2) print('3사분위 : '.. 2023. 5. 16.
AI 7일차 (2023-05-16) 인공지능 기초 _머신러닝 - Voting(보팅) Voting(보팅) ㄴ 일반적으로 서로 다른 알고리즘을 가진 분류기를 결합하는 것 (참고 : 배깅의 경우 각각의 분류기가 모두 같은 유형의 알고리즘을 기반으로 함) ㄴ 하드 보팅 : 각 분류기의 예측 결과를 단순히 다수결(majority voting)로 결정 ㄴ 소프트 보팅 : 각 분류기의 예측 확률을 평균하여 예측을 수행 하드 보팅 ㄴ 각 weak learner들의 예측 결과값을 바탕으로 다수결 투표하는 방식입니다. 소프트 보팅 ㄴ weak learner들의 예측 확률값의 평균을 사용 ㄴ weak learner들에 대한 신뢰도가 다를 경우, 가중치를 부여하여 확률값의 평균이 아닌 가중치 합을 사용 lr = LogisticRegression() knn = KNeighborsClassifier(n_neig.. 2023. 5. 16.
AI 7일차 (2023-05-16) 인공지능 기초 _머신러닝 - Bagging(배깅) Bagging(배깅) ㄴ Bootstrap Aggregation의 약자 ㄴ 배깅은 샘플을 여러 번 뽑아(Bootstrap) 각 모델을 학습시켜 결과물을 집계 (Aggregration) 하는 방법 ㄴ 데이터로부터 부트스트랩 한 데이터로 모델을 학습시키고 학습된모델의 결과를 집계하여 최종 결과값을 도출 from sklearn.ensemble import BaggingRegressor from xgboost import XGBRegressor model = BaggingRegressor(XGBRegressor(), n_estimators=100, n_jobs=-1, random_state=72 ) ml16_bagging_iris.py import numpy as np from sklearn.model_sele.. 2023. 5. 16.
AI 7일차 (2023-05-16) 인공지능 기초 _머신러닝 - 하이퍼파라미터 튜닝_GridSearchCV (그리드서치) GridSearchCV (그리드서치) ㄴ 하이퍼파라미터 튜닝 : 임의의 값들을 넣어 더 나은 결과를 찾는 방식 → 수정 및 재시도하는 단순 작업의 반복 ㄴ 그리드 서치 : 수백 가지 하이퍼파라미터값을 한번에 적용 가능 ㄴ 그리드 서치의 원리 : 입력할 하이퍼파라미터 후보들을 입력한 후, 각 조합에 대해 모두 모델링해보고 최적의 결과가 나오는 하이퍼파라미터 조합을 확인 ㄴ 예를들어 하이퍼파라미터로 max_depth와 learning_rate를 사용한다고 가정 ㄴ 다음과 같이 하이퍼파라미터 별로 다양한 값들을 지정해줌 = > 그리드 서치로 적용하면 다음과 같이 9가지 조합이 만들어짐 ㄴ 이렇게 9가지 조합을 각각 모델링 ㄴ 보통 그리드 서치에서는 교차검증의 횟수만큼 곱해진 횟수가 모델링됨 ㄴ 예를 들어 위의.. 2023. 5. 16.
AI 6일차 (2023-05-15) 인공지능 기초 _머신러닝 - Boosting 계열의 모델 부스팅 (Boosting ) ㄴ Boosting이란 약한 분류기를 결합하여 강한 분류기를 만드는 과정 ㄴ 각 0.3의 정확도를 가진 A, B, C를 결합하여 더 높은 정확도, 예를 들어 0.7 정도의 accuracy를 얻는 게 앙상블 알고리즘의 기본 원리 ㄴ Boosting은 이 과정을 순차적으로 실행 ㄴ A 분류기를 만든 후, 그 정보를 바탕으로 B 분류기를 만들고, 다시 그 정보를 바탕으로 C 분류기를 만듦 Adaptive Boosting (AdaBoost) ㄴ 다수결을 통한 정답 분류 및 오답에 가중치 부여 Gradient Boosting Model (GBM) ㄴ Loss Function의 gradient를 통해 오답에 가중치 부여 ㄴ LightGBM, CatBoost, XGBoost - Gradi.. 2023. 5. 16.
AI 6일차 (2023-05-15) 인공지능 기초 _머신러닝 - Feature Importances Feature Importances ㄴ 머신러닝 모델에서 각 특성(feature)이 예측 결과에 얼마나 중요한 역할을 하는지를 나타내는 지표 ㄴ 모델링 과정에서 특성 선택(feature selection)이나 특성 중요도 파악에 활용될 수 있음 = > 중요한 특성을 선택하거나 불필요한 특성을 제거할 수 있음 --> 모델의 복잡성을 줄이고 과적합을 방지 ㄴ 일반적으로 트리 기반 알고리즘인 Decision Tree, Random Forest, Gradient Boosting 등에서 Feature Importances를 계산할 수 있음 ㄴ 각 특성의 중요도는 해당 특성이 분기 결정에 얼마나 크게 기여하는지를 측정한 값임 ㄴ 일반적으로 Feature Importances 값은 0과 1 사이의 값으로 표현되며, .. 2023. 5. 15.