AI 5일차 (2023-05-12) 인공지능 기초 - Tokenizer 와 Embedding
Tokenizer from keras.preprocessing.text import Tokenizer # 예시 문장들 sentences = ['The cat sat on the chair.', 'The dog ate my food.'] # 토크나이저 인스턴스 생성 후, 텍스트 데이터에 대해 단어 인덱스 생성 tokenizer = Tokenizer() tokenizer.fit_on_texts(sentences) # 생성된 단어 인덱스 확인 print(tokenizer.word_index) # {'the': 1, 'cat': 2, 'sat': 3, 'on': 4, 'chair': 5, 'dog': 6, 'ate': 7, 'my': 8, 'food': 9} # 문장을 시퀀스로 변환 sequences = tok..
2023. 5. 12.