본문 바로가기

네이버클라우드/AI34

AI 5일차 (2023-05-12) 인공지능 기초 - pandas pandas ㄴ 데이터 처리와 분석을 위해 사용되며, 표 형태의 데이터를 다루기에 용이 ㄴ Boston 데이터 다운로드하여 준비 해두기 tf01_pd01_boston.ipynb import numpy as np import pandas as pd from keras.models import Sequential from keras.layers import Dense from sklearn.model_selection import train_test_split from sklearn.metrics import r2_score # 1. 데이터 path = './_data/' x_train = pd.read_csv(path + 'train-data.csv')# cvs 파일 불러오는 코드 y_train = pd... 2023. 5. 14.
AI 5일차 (2023-05-12) 인공지능 기초 - Imdb 와 Rueters Imdb ㄴ IMDB(Internet Movie Database) ㄴ 긍정 부정 영화 리뷰(이진분류) ㄴ 각 리뷰에 대한 긍정 또는 부정의 감성을 예측하는 감성 분석 문제를 풀기 위한 데이터셋 ㄴ 훈련용(train) 리뷰 25,000개와 테스트용(test) 리뷰 25,000개로 구성 ㄴ 각각 50%는 긍정 리뷰와 50%는 부정 리뷰입 VSCode 이용 tf21_embedding_imdb.py import numpy as np from keras.models import Sequential from keras.layers import Dense, LSTM, Embedding, Dropout from keras.datasets import imdb from keras.preprocessing.text imp.. 2023. 5. 12.
AI 5일차 (2023-05-12) 인공지능 기초 - Tokenizer 와 Embedding Tokenizer from keras.preprocessing.text import Tokenizer # 예시 문장들 sentences = ['The cat sat on the chair.', 'The dog ate my food.'] # 토크나이저 인스턴스 생성 후, 텍스트 데이터에 대해 단어 인덱스 생성 tokenizer = Tokenizer() tokenizer.fit_on_texts(sentences) # 생성된 단어 인덱스 확인 print(tokenizer.word_index) # {'the': 1, 'cat': 2, 'sat': 3, 'on': 4, 'chair': 5, 'dog': 6, 'ate': 7, 'my': 8, 'food': 9} # 문장을 시퀀스로 변환 sequences = tok.. 2023. 5. 12.
AI 5일차 (2023-05-12) 인공지능 기초 - 자연어처리(NLP) 기초 워드 임베딩(Word Embedding) ㄴ 단어나 문구를 벡터 공간에 매핑하는 기술 ㄴ 텍스트를 컴퓨터가 이해할 수 있도록 숫자로 변환 ㄴ 단어를 표현하는 방법에 따라서 자연어 처리의 성능이 크게 달라짐 ㄴ 각 단어를 인공 신경망 학습을 통해 벡터(Vector)화하는 방법 ㄴ 케라스에서 제공하는 Embedding() => 단어를 랜덤한 값을 가지는 벡터로 변환한 뒤에, 인공 신경망의 가중치(W)를 학습 인공지능에서 벡터(vector)란 ㄴ 인공지능 분야에서 벡터는 대개 고차원의 숫자 배열(array)을 의미함 ㄴ 이미지 데이터의 벡터는 각 픽셀(pixel)의 색상 값을 숫자로 표현하고, 이러한 숫자들을 배열 형태로 나열한 것 (예를 들어, 28 x 28 픽셀의 흑백 이미지는 784차원의 벡터) ㄴ 텍스.. 2023. 5. 12.
AI 4일차 (2023-05-11) 인공지능 기초 - 이미지 분석 : 데이터 셋 ** Jupiter notebook 이용 MNIST 손글씨 이미지 분류하기 ㄴ 0∼9까지 10가지로 분류될 수 있는 손글씨 ㄴ 숫자 이미지 70,000개 ㄴ train-set 60,000개, test-set 10,000개로 구성 ㄴ 28x28 픽셀로 구성되어 있음 ㄴ 0∼255 사이의 숫자 행렬로 표현됨 mnist 데이터에서 5만 출력 mnist_imshow01.ipynb import numpy as np from keras.datasets import mnist# 손글씨 이미지 데이터 import matplotlib.pyplot as plt# 시각화 (x_train, y_train), (x_test, y_test) = mnist.load_data() # x_train :이미지, y_train : 라벨.. 2023. 5. 11.
AI 4일차 (2023-05-11) 인공지능 기초 - 이미지 분석 : CNN 모델 CNN(합성곱 신경망) 완전 연결 (Fully Connected) 신경망과 합성곱 (Convolution layer) 신경망 이미지 분석에서 완전연결(fully connected) 신경망의 문제점 ㄴ 데이터 형상의 무시 : 이미지 데이터를 1차원 벡터로 평탄화(flatten)하는 과정에서 공간 정보가 손실 되므로 이미지 내에서 픽셀들 간의 상대적인 위치 정보가 무시됨 ㄴ 변수의 개수 : 매개변수(parameter)의 수가 매우 많아지고, 모델의 복잡도가 높아지는 경향이 있으며 이는 과적합(overfitting)의 문제를 유발할 수 있음 ㄴ 네트워크 크기 : 입력 이미지의 모든 픽셀이 출력층에 직접 연결되는데, 입력 이미지의 크기가 커지면 모델 파라미터의 수도 비례해서 증가하게 되어 과적합과 계산 비용 증.. 2023. 5. 11.