Python30 [세미나 발표] Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow Ch.8 [머신러닝] 차원 축소 — Random Projection, LLE, 기타 기법 정리Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow (Aurélien Géron) Chapter 8. Dimensionality Reduction (p.364~376) 내용을 정리한 글이다.Random Projection개념Random Projection은 데이터를 무작위 선형 변환으로 낮은 차원의 공간에 투영하는 기법이다. William B. Johnson과 Joram Lindenstrauss가 수학적으로 밝혀냈으며, 무작위로 차원을 줄여도 데이터 간 유사성(거리)이 잘 보존된다는 것이 핵심이다.차원을 얼마나 줄여야 할까?직접 계산하지 않아도 된다. Scik.. 2026. 3. 21. [세미나 발표] Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow Ch.5 [머신러닝] SVM — 선형, 소프트 마진, 비선형, 커널 트릭 정리Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow (Aurélien Géron) Chapter 5. Support Vector Machines (p.286~299) 내용을 정리한 글이다.서포트 벡터 머신 (Support Vector Machine, SVM)SVM은 분류, 회귀, 이상치 탐지까지 두루 쓰이는 강력한 모델이다. 특히 중소 규모 데이터셋에서 복잡한 분류 문제를 풀 때 강점을 발휘한다.선형 SVM 분류 (Linear SVM Classification)마진 최대화SVM의 핵심 아이디어는 두 클래스를 가장 넓게 나누는 경계선을 찾는 것이다. 이 경계선과 양쪽 클래스 사.. 2026. 3. 21. [세미나 발표] Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow Ch.4 [머신러닝] 미니배치 GD, 다항 회귀, 러닝 커브, 편향-분산 트레이드오프 정리Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow (Aurélien Géron) Chapter 4. Training Models (p.246~256) 내용을 정리한 글이다.미니배치 경사 하강법 (Mini-Batch Gradient Descent)경사 하강법에는 세 가지 변형이 있다. 앞서 배운 배치 GD와 확률적 GD(SGD)의 중간 형태가 미니배치 GD다.종류한 번에 처리하는 데이터특징배치 GD전체 훈련 데이터안정적이지만 느림확률적 GD1개빠르지만 불규칙미니배치 GD수십~수백 개 (미니배치)둘의 절충안장점GPU 활용: 데이터 여러 개를 행렬 연산으로 한 번에 .. 2026. 3. 21. [세미나 발표] Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow Ch.3.1 [머신러닝] 오류 분석, 멀티라벨·멀티아웃풋 분류 정리Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow (Aurélien Géron) Chapter 3. Classification (p.207~220) 내용을 정리한 글이다.오류 분석 (Error Analysis)좋은 모델을 골랐다면, 이제 성능을 더 끌어올릴 차례다. 이때 핵심은 모델이 어떤 유형의 실수를 반복하는지 파악하는 것이다. 정확도 숫자만 봐서는 알 수 없는 정보다.혼동 행렬 시각화MNIST처럼 클래스가 10개인 경우 혼동 행렬은 10×10으로 숫자만 봐서는 읽기 어렵다. 컬러 히트맵으로 시각화하면 한눈에 파악할 수 있다.from sklearn.model_selection impo.. 2026. 3. 21. [세미나 발표] Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow Ch.3 [머신러닝] 모델 배포·운영, MNIST, 이진 분류기 정리Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow (Aurélien Géron) Chapter 2. End-to-End Machine Learning Project (p.168~176) Chapter 3. Classification (p.177~183) 내용을 정리한 글이다.Chapter 2 마무리 — 모델 배포와 운영Chapter 2는 캘리포니아 주택 가격 예측 프로젝트를 처음부터 끝까지 따라가는 구성이다. 마지막 단계는 학습한 모델을 실제 서비스에 올리고, 그 이후를 관리하는 것이다.배포 준비모델을 프로덕션 환경에 올리기 전에 반드시 해야 할 것들이 있다.코드 정리 (버그 수정,.. 2026. 3. 21. [세미나 발표] Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow Ch.2.1 [머신러닝] 특성 스케일링과 커스텀 변환기 정리Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow (Aurélien Géron) Chapter 2. End-to-End Machine Learning Project (p.133~144) 내용을 정리한 글이다.특성 스케일링 (Feature Scaling)특성 스케일링은 모든 특성이 동일한 스케일을 갖도록 맞춰주는 과정이다. 데이터 전처리에서 가장 중요한 작업 중 하나다.이유는 단순하다. 대부분의 머신러닝 모델은 입력 데이터의 크기 차이에 민감하다. 예를 들어 total_rooms는 수백~수천 단위인데 median_income은 0~15 단위라면, 모델이 값이 큰 특성에 지나치게 의존하게 된다.대표.. 2026. 3. 21. [세미나 발표] Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow Ch.2 [머신러닝] 데이터 탐색과 테스트 셋 만들기 정리Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow (Aurélien Géron) Chapter 2. End-to-End Machine Learning Project (p.101~111) 내용을 정리한 글이다.데이터 구조 훑어보기실제 프로젝트에서 데이터를 처음 받으면 가장 먼저 하는 일이 데이터 구조 파악이다. 여기서는 캘리포니아 주택 가격 데이터셋을 예시로 사용한다.head() — 데이터 미리 보기housing.head()DataFrame의 상위 5개 행을 출력한다. 어떤 컬럼이 있는지, 값의 형태는 어떤지 눈으로 빠르게 확인하는 첫 단계다.info() — 결측치 확인housing.info().. 2026. 3. 20. [세미나 발표] Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow CHAPTER 1.2 [머신러닝] 언더피팅, 테스트·검증, 데이터 미스매치 정리Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow (Aurélien Géron) Chapter 1. The Machine Learning Landscape (p.71~79) 내용을 정리한 글이다.언더피팅 (Underfitting)오버피팅이 "모델이 너무 복잡해서 훈련 데이터에만 과하게 맞는" 문제라면, 언더피팅은 그 반대다. 모델이 너무 단순해서 데이터의 근본적인 구조 자체를 학습하지 못하는 상태다.예를 들어 삶의 만족도를 단순 선형 모델 하나로 예측하려 하면, 실제 세상은 훨씬 복잡하기 때문에 훈련 데이터조차 제대로 맞추지 못한다.해결 방법은 세 가지다.더 복잡한 모델 선택: 선형 .. 2026. 3. 20. [세미나 발표] Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow Ch.1 [머신러닝] 머신러닝 시스템의 종류 정리Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow (Aurélien Géron) Chapter 1. The Machine Learning Landscape (p.38~52) 내용을 정리한 글이다.책이 바뀌었다학부연구생 세미나에서 Data Science from Scratch를 완독한 뒤, 다음 책으로 넘어왔다. 바로 Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow, 줄여서 HOML이다.전 책이 "밑바닥부터 구현하며 원리를 이해하는 것"에 초점을 맞췄다면, HOML은 그 원리를 토대로 실전에서 어떻게 쓰는지를 더 깊이 다룬다. Scikit.. 2026. 3. 20. [세미나 발표] Data Science from Scratch Ch.24 [데이터 엔지니어링 기초] MapReduce 정리Data Science from Scratch (Joel Grus) Chapter 24 : MapReduce 내용을 정리한 글이다.MapReduce란?대규모 데이터 집합에 대한 병렬 처리를 수행하는 모델이다. 데이터가 너무 많아한 대의 컴퓨터에 저장조차 할 수 없는 상황에서 활용한다.알고리즘 구조는 세 단계로 나뉜다.Map : 각 데이터를 0개 이상의 (키, 값) 쌍으로 변환한다.Group : 같은 키를 가진 쌍끼리 모두 모은다.Reduce : 같은 키로 묶인 값들에 reducer 함수를 적용해 최종 결과를 산출한다.예시: 단어 개수 세기 (Word Count)수백만 명의 사용자 상태 업데이트에서 가장 자주 쓰이는 단어를 찾고 싶다고 하자.사용자가 수백 명.. 2026. 3. 20. 이전 1 2 3 다음