네이버클라우드202 AI 6일차 (2023-05-15) 인공지능 기초 _머신러닝 - K-Fold 와 StratifiedKFold K-Fold ㄴ ML 모델에서 가장 보편적으로 사용되는 교차 검증 기법 ㄴ K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴드 세트에 학습과 검증 평가를 수행 KFold 와 StratifiedKFold ㄴ scikit-learn에서 제공하는 교차 검증(Cross-validation) 전략 ㄴ KFold ㄴ 데이터를 k개의 폴드(fold)로 나누어 각 폴드를 한 번씩 테스트 세트로 사용하고 나머지 폴드들을 훈련 세트로 사용하여 모델을 학습 및 평가 ㄴ 데이터를 무작위로 섞은 후에 나누기 때문에 일반적으로 데이터셋이 충분히 큰 경우에 사용됩니다. ㄴ StratifiedKFold ㄴ KFold와 유사하지만 클래스별 비율을 유지하는 데에 초점을 둔 교차 검증 전략 ㄴ 각 폴드에서 훈련 세트와 테스트 세트에 속.. 2023. 5. 15. AI 6일차 (2023-05-15) 인공지능 기초 _머신러닝 - All_Estimator All_Estimator ㄴ scikit-learn에 구현된 모든 추정기(estimator) 객체의 리스트를 반환 ㄴ scikit-learn은 다양한 종류의 추정기를 제공 ㄴ 분류 모델을 위한 DecisionTreeClassifier, RandomForestClassifier, LogisticRegression 등이 있음 ㄴ 회귀 모델을 위한 LinearRegression, RandomForestRegressor, GradientBoostingRegressor 등이 있음 ㄴ 이러한 다양한 추정기를 사용하여 데이터 분석 및 예측 모델링을 수행할 수 있음 ml06_all_estimator01.py import numpy as np from sklearn.datasets import load_iris from.. 2023. 5. 15. AI 6일차 (2023-05-15) 인공지능 기초 _머신러닝 - Ensemble 모델 : RandomForestClassifier, RandomForestRegressor Random Forest ㄴ 여러 개의 결정 트리들을 임의적으로 학습하는 방식의 앙상블 방법 ㄴ 여러가지 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법 ㄴ 특징 ㄴ 임의성 : 서로 조금씩 다른 특성의 트리들로 구성 ㄴ 비상관화 : 각 트리들의 예측이 서로 연관되지 않음 ㄴ 견고성 : 오류가 전파되지 않아 노이즈에 강함 ㄴ 일반화 : 임의화를 통한 과적합 문제 극복 ㄴ 여러 개의 기본 모델을 조합하여 예측을 수행하는 방법 RandomForestClassifier ㄴ 분류 문제를 해결하기 위한 앙상블 모델 ㄴ 여러 개의 의사 결정 트리(Decision Tree)를 생성하고, 각각의 트리에서 예측한 결과를 다수결 투표 방식으로 종합하여 최종 예측을 수행합니다. 각 트리는 부트스트랩 샘플링.. 2023. 5. 15. AI 6일차 (2023-05-15) 인공지능 기초 _머신러닝 - Tree 모델 : DecisionTreeClassifier, DecisionTreeRegressor Decision Tree ㄴ 뷴류와 회귀 문제에 널리 사용하는 모델 ㄴ 기본적으로 결정 트리는 결정에 다다르기 위해 예/아니오 질문을 이어 나가면서 학습 ㄴ scikit-learn에서 결정 트리는 DecisionTreeRegressor와 DecisionTreeClassifier에 구현되어 있음 DecisionTreeClassifier ml04_tree_iris.py # 1. iris import numpy as np from sklearn.svm import SVC, LinearSVC from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score from sklearn.datasets import load.. 2023. 5. 15. AI 6일차 (2023-05-15) 인공지능 기초 _머신러닝 - 스케일링 (Scaling) 스케일링 (Scaling) Normalization (정규화) ㄴ 특성들을 특정 범위(주로 [0,1]) 로 스케일링 하는 것 ㄴ 가장 작은 값은 0, 가장 큰 값은 1 로 변환되므로, 모든 특성들은 [0, 1] 범위를 갖게 됨 Standardization (표준화) ㄴ 특성들의 평균을 0, 분산을 1 로 스케일링 하는 것 ㄴ 즉, 특성들을 정규분포로 만드는 것 주의사항 ㄴ 훈련 데이터에는 fit_transform() 메서드를 적용 --> fit() + transform() ㄴ 테스트 데이터에는 transform() 메서드를 적용 scaler = MinMaxScaler() scaler.fit(x_train) # train 은 fit, transform 모두 해줘야 함 x_train = scaler.tran.. 2023. 5. 15. AI 6일차 (2023-05-15) 인공지능 기초 _머신러닝 - Linear 모델과 SVM 모델 : SVC, SVR Linear 모델 Perceptron ㄴ 가장 간단한 형태의 인공 신경망 모델 ㄴ 이진 분류 문제를 해결하기 위해 사용 ㄴ 입력 데이터에 대해 가중치를 적용하고, 이를 활성화 함수를 통과시켜 예측을 수행 ㄴ 예측 결과를 기반으로 모델의 가중치를 업데이트하여 오분류를 최소화하도록 학습 Logistic Regression (분류 모델) ㄴ 분류 문제를 해결하기 위한 선형 모델 ㄴ 입력 데이터에 대해 선형 가중치를 적용한 후, 시그모이드(sigmoid) 함수를 통과시켜 확률값을 출력함 ㄴ 이진 분류 뿐만 아니라 다중 클래스 분류에도 적용할 수 있음 ㄴ 로그 손실 함수를 최소화하는 방식으로 학습되며, 경사 하강법 등의 최적화 알고리즘을 사용함 Linear Regression (회귀 모델) ㄴ 회귀 문제를 해결하.. 2023. 5. 15. 이전 1 ··· 23 24 25 26 27 28 29 ··· 34 다음