본문 바로가기

embedding3

[세미나 발표] Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow Ch.13 Loading and Preprocessing Data with TensorFlow [딥러닝] 데이터 전처리 — 임베딩, 텍스트, 이미지, TFDS 정리Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow (Aurélien Géron) Chapter 13. Loading and Preprocessing Data with TensorFlow (p.722~740) 내용을 정리한 글이다.임베딩을 활용한 범주형 특성 인코딩원-핫 인코딩의 한계범주형 데이터를 다룰 때 원-핫 인코딩(One-Hot Encoding)을 흔히 사용한다. 하지만 범주 수가 많아지면 문제가 생긴다. 범주가 50,000개라면 50,000차원의 희소(Sparse) 벡터가 만들어지고, 대부분의 값은 0이다. 메모리와 연산 모두 비효율적이다.임베딩(Embedding)은.. 2026. 3. 21.
[LangChain & RAG 공부] 벡터 스토어와 리트리버 PART 5에서는 LLM에게 미리 정보를 줄 때 사용하는 것들을 배운다.먼저 벡터 스토어와 리트리버에 대해 간단히 설명하고 시작하겠다.벡터 스토어 : RAG 시스템에서 임베딩 벡터를 저장하고 검색하는 데이터베이스리트리버 : 사용자의 질문과 가장 관련성이 높은 정보를 벡터 데이터베이스(스토어)에서 찾아 제공하는 역할자 이제 벡터 스토어에서 나온 임베딩이라는 단어부터 설명하면서 시작하겠다!임베딩: 문서들을 청크로 쪼개고, 이 청크들을 벡터 스토어에 저장하기 전에, 벡터화된 숫자 표현으로 변환하는 과정임베딩이 필요한 이유는 LLM은 텍스트를 바로 처리하지 못하기 때문이다.따라서 텍스트의 의미를 수학적으로 이해해서 (0.1, 0.5, 0.9) 같은 숫자 벡터로 변환한다. 이 숫자 벡터들은 나중에 사용자가 질문을.. 2025. 11. 12.
GDG : AI 미션코스 Week2 Week1에서는 데이터를 받아서 전처리하는 작업을 진행했었다.데이터 전처리 : 텍스트 데이터를 숫자 벡터 형태로 변환오늘은 그 데이터를 실제로 인공지능 모델에 학습시켜 보자!Week1에서 train을 만들었으니, test도 벡터화하자.Copytest_text_X = [ row.split('\t')[1] for row in test_text.split('\n')[1:] if row.count('\t') > 0]# Week1에서 학습된 vectorize_layer 그대로 사용합니다.test_X = vectorize_layer(test_text_X)print("test_X shape:", test_X.shape)print("test_Y shape:", test_Y.shape)이제 모델의 하이퍼.. 2025. 11. 12.