machine learning15 GDG : AI 미션 코스 Week3 Week2에서는 Dense 층만으로 모델을 만들고 fit()하면서 결과를 확인해 봤다.Week3에서는 모델을 업그레이드해서 성능을 좋게 만들어보자.→ 더 깊은 자연어 처리 모델 만들기.SimpleRNN으로 모델 만들기기존 Dense 모델은 문장 순서를 반영하지 못하는 단점이 있었다.c.f. “배우 연기는 좋았지만 스토리가 아쉬웠다”와 “스토리는 아쉬웠지만 배우 연기는 좋았다”는 거의 같은 단어를 사용하지만, 순서에 따라 평가가 달라지기 때문에 Dense 모델을 사용하기 애매하다.SimpleRNN은 가중치 초기화와 내부 상태 초기값에 더 민감하다.RNN : 순서가 있는 데이터를 처리하고 예측하는 딥러닝 모델로, 과거 데이터를 기억하면서 가중치를 붙이는 순환적 구조를 가지고 있다.Copyrnn_model =.. 2025. 11. 21. [Machine Learning & Deep Learning 공부] CNN 이제 딥러닝을 더 딥하게 들어갈 것이다. 바로! 오늘부터 CNN에 대해서 배워볼 것이다.CNN : Convolutional Neural Network, 합성곱 신경망CNN은 이미지 처리에 특화되어 있다.밑그림은 CNN의 추상화 과정이다.추상화의 정도가 점점 깊어지는 것을 볼 수 있다.Layer 1 : Pixel 정보 인식Layer 2 : Edge/Simple Shape 특성 학습Layer 3 : Complex Shape 특성 학습Layer 4 : 얼굴인식에 필요한 특성 학습CNN 등장 배경이미지를 처리하는 것을 컴퓨터비전이라고 한다.컴퓨터 비전은 오래전부터 공부되었던 분야였다. 기존 Neural Network는 input을 1차원의 vector로만 받았었다.이는 2차원의 이미지를 1차원 vector로 변.. 2025. 7. 2. [Machine Learning & Deep Learning 공부] Feature Engineering& Clustering & 차원 축소 이제 머신러닝은 거의 끝나고, 피쳐 엔지니어링과 클러스터링, 차원축소를 잘하는 법을 배우고 딥러닝을 배울 것이다.Feature Engineering에서 중요한 점은 좋은 Feature을 구별하는 것이다.좋은 feature 의 조건은 5가지가 있다.Target 과의 높은 관련성prediction 시점에 알 수 있다. ex) 매출 앱 데이터는 다음 달에 전월 매출이 집계되는데, 그런 거를 월별 매출로 판단하고 사용하면 안 된다.Numeric : 반드시 숫자로 되어있어야 한다.충분한 example(data)의 수인간 전문가의 domain 지식(업무 지식)이 활용되어야 한다. ex) 동일 데이터가 주어졌을 때, column을 나누는 것은 인간이므로 feature가 좋고 나쁨을 정한다.이 다섯 가지의 조건을 만족.. 2025. 3. 24. [Machine Learning & Deep Learning 공부] Ensemble Learning 실습 이번 실습은 Ensemble의 주요 기법 2가지인 Random Forest와 Gradient Boosting에 대해 실습할 것이다.Network Ads를 이용한다.1. Random Forest를 이용한 분류 및 결정 경계를 시각화한다.2. Gradient Boosting를 이용한 분류 및 결정 경계를 시각화한다. 지금까지 실습한 것과 대부분 비슷하다.(원래 그랫듯)sklearn 만든 이가 ui를 다 통일시켰기 때문에, parameter만 유의하면 된다.1. Random Forest Classifier먼저 사용할 라이브러리를 import 해준다.import numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.model_sele.. 2025. 3. 23. [Machine Learning & Deep Learning 공부] Ensemble Learning 머신 러닝에서 많이 쓰이는 Ensemble Learning(앙상블 러닝)에 대해서 알아보자! ai의 앙상블 러닝 평가 :"Ensemble Learning은 머신러닝에서 매우 널리 사용되는 기법 중 하나로, 여러 모델을 결합하여 단일 모델보다 더 나은 예측 성능을 얻는 데 중점을 둡니다. 최근 몇 년간 컴퓨팅 성능의 향상과 함께 Ensemble Learning의 활용이 더욱 증가하고 있습니다. 아래는 Ensemble Learning이 많이 사용되는 이유와 주요 응용 분야를 정리한 내용입니다." 앙상블 러닝 : 다수의 약한 학습기(weak learner)를 조합(Ensemble)하여 더 높은 성능 추출하는 것이다.1. Decrease Variance by Bagging (Bootstrap Aggregatin.. 2025. 3. 19. [Machine Learning & Deep Learning 공부] Logistic Regression 실습 이번 실습은 Logistic Regression 을 이용해서 이진 분류를 하고, ROC Curve로 시각화할 것이다.1. data : 성별 소득 data에 따라 특정 구매자의 구매할지의 여부 예측2. Dataset 구성 : 사용자 ID, 성별, 연령, 추정급여, 구매여부. 이 중에서 연령, 추정급여 feature을 이용할 것이다.3. Train / Test dataset은 8:2로 분리할 것이다.4. Feature Scaling을 실시할 것이다.(standard scaling)5. Model evaluation by Confusion Matrix, F1-score6. Visualization > ROC Curve 자 이제 시작!먼저 사용할 라이브러리를 불러온다.import numpy as npimport.. 2025. 3. 18. [Machine Learning & Deep Learning 공부] Logistic Regression Logistic Regression 기본 개념Logistic Regression은 이진 분류 문제를 해결하기 위해 설계된 통계적 모델이다. 이 모델은 하나 이상의 독립 변수를 사용하여 이진 결과(예: 0 또는 1, 성공 또는 실패)의 확률을 예측수학적 기초로지스틱 함수Logistic Regression의 핵심은 로지스틱 함수(시그모이드 함수)이다. 이 함수는 어떤 실수 값이라도 0과 1 사이의 값으로 변환선형 예측자 함수모델은 먼저 선형 예측자 함수를 사용확률 계산선형 예측자 함수의 결과를 로지스틱 함수에 적용하여 확률을 계산S curve 형성[0, 1]로 bound 되어있다.미분 가능하고, 0.5 부근에서 급격히 변화한다.Logistic Regression(로지스틱 회귀) Classifier가장 단순.. 2025. 3. 18. [Machine Learning & Deep Learning 공부] Model Performance 측정 Confusion Matrix : 혼동 행렬내부에 4개의 값은 Classification(분류) 성능의 정확성을 측정한 것이다.TP : 1을 1로 제대로 분류한 것, 정확히 positive 예측FP : 0을 1로 잘못 분류한 것, positive로 잘못 예측FN : 1을 0로 잘못 분류한 것, negative로 잘못 예측TN : 0을 0로 제대로 분류한 것, 정확히 negative 예측Classification rate(=Accuracy) = (TP + TN) / (TP + TN + FP + FN)▶ 단순 정확성으로, 전체 데이터 중에서, 제대로 분류된 데이터의 비율을 의미.Confusion Matrix를 이용한 분류 모델 성능 평가1. Precision = TP / (TP + FP)▶ 정밀성으로, Po.. 2025. 3. 18. [Machine Learning & Deep Learning 공부] Training/Test/Evaluation 지금까지 우리가 머신러닝을 하면서 training과 test set을 나눴던 것을 알 수 있다.이번 시간에 이 둘의 상관관계와 더 자세한 점들을 배울 것이다!먼저 이 두 데이터의 error율에 따라 구분되는 Overfitting과 Underfitting에 대해 다룰 것이다.1. Overfitting(과적합): Training Data에 비해 Test Data의 Error 율이 높게 나타나는 상황.여기서 Training Data는 머신러닝이 학습한 데이터이고, Test Data는 새로운 데이터이다. 2. Underfitting(과소적합): 반대로 모델이 너무 단순해서 데이터의 내재된 구조를 학습하지 못하는 상황.사진에서 알 수 있듯이,Underfitting 한 모델은 'High Bias Model'이라고 .. 2025. 3. 18. [Machine Learning & Deep Learning 공부] Decision 실습 Decision Tree : ID3 알고리즘을 사용해서 결정 경로를 tree형태로 구성한 white-box model이다. 전에 KNN에서 사용했던 iris data를 사용할 것이다. 4개의 feature(Sepal Length, Sepal Width, Petal Length, Petal Width)을 모두 사용하여 꽃의 종류를 분류할 것이다.라이브러리 불러오기from sklearn.datasets import load_irisfrom sklearn import tree#iris data 불러오기iris = load_iris()from sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_score사용할 것들.. 2025. 3. 17. 이전 1 2 다음