본문 바로가기

AI/Data Analysis9

[Data Analysis 공부] 웹 데이터 수집 # 웹 데이터 수집 기본 개념 정리## 1. 웹 크롤링과 웹 스크래핑의 차이점웹에서 데이터를 수집하는 방법에는 **웹 크롤링**과 **웹 스크래핑**이 있다. 두 개념은 비슷하지만 목표와 방식에서 차이가 있다.- **웹 크롤링(Web Crawling)** : 크롤러라는 프로그램이 인터넷을 돌아다니며 웹 페이지의 콘텐츠를 자동으로 수집하고 색인하는 과정.- **웹 스크래핑(Web Scraping)** : 특정 웹사이트의 특정 페이지에서 원하는 데이터를 추출하는 과정.즉, 웹 크롤링은 인터넷 전체에서 데이터를 모으는 반면, 웹 스크래핑은 특정 데이터만 추출하는 작업이다.## 2. 웹 스크래핑의 과정웹 스크래핑은 다음과 같은 단계로 진행된다.1. **요청(Request)** : 웹 서버에 특정 URL을 요청해.. 2025. 3. 5.
[Data Analysis 공부] Seaborn 실습 4장은 본문 내용도 적고, 연습문제도 3문제밖에 되지 않는다. 후다닥 하겠다! 데이터나 요구 사항들은 따로 주어진다.## 맷플롯립과 시본 라이브러리 불러오기import matplotlib.pyplot as pltimport seaborn as sns## 시본의 내장 데이터셋 중 'exercise' 데이터셋을 사용exercises = sns.load_dataset('exercise')## 범주형 변수 산점도 그리기 (swarmplot)sns.swarmplot(data=exercises, x='kind', y='pulse', hue='diet', palette='Set2', alpha=0.7)## 그래프 제목 및 축 라벨 설정plt.title('Pulse (BPM) by Exercise Type and Di.. 2025. 3. 2.
[Data Analysis 공부] Seaborn 이제 대학교 개강이 얼마 안남았다.. 나는 이제 대학교 3학년으로 올라간다. 미래를 슬슬 구체화해야하는데 잘 모르겠다. 그냥 눈 앞에 할 일들에 집중하다가 문득 앞을 봤을 때, 내 미래가 자연스레 정해져있으면 좋겠다. 어쨋든 빨리 공부를 끝내야한다!! start4.1 시본 기본 개념 알아보기Seaborn은 Matplotlib을 기반으로 한 데이터 시각화 라이브러리로, 보다 간편하게 데이터를 시각화할 수 있다. 또한, 다양한 내장 데이터셋을 제공하여 학습에 유용하다.Seaborn에서는 이렇게 여러 개의 내장 데이터셋을 제공하며, 이번 학습에서는 tips 데이터셋을 사용할 것이다. (위 사진엔 tips가 없긴 하지만..!) 팁 데이터셋 불러오기# 팁 데이터셋을 불러온 다음, 데이터셋의 구성을 살펴보기# .h.. 2025. 3. 2.
[Data Analysis 공부] Matplotlib 실습 3장까지 진도를 나가고 바로 뒤에 나오는 연습문제 5문제를 풀어보았다.데이터나 요구 사항들은 따로 주어진다.## 맷플롯립 라이브러리 불러오기import matplotlib.pyplot as plt## 데이터 생성time_of_day = [12, 13, 14, 15, 16, 17, 18] exercise_time = [50, 40, 35, 30, 20, 25, 55]## 선 그래프 그리기plt.plot(time_of_day, exercise_time, marker='o')## 그래프 제목 및 축 라벨 추가plt.title("Exercise Time by Time of Day")plt.xlabel("Time of Day (Hour)")plt.ylabel("Exercise Time (Minutes)")## 그.. 2025. 2. 28.
[Data Analysis 공부] Matplotlib 3장 데이터 시각화 라이브러리, 맷플롯립3장 내용이 길어서 요약을 잘해야겠다. 배우는 데 굉장히 오래 걸렸다 ㅠ 3.1 맷플롯립 시작하기맷플롯립(Matplotlib) : 데이터 시각화를 위한 라이브러리 맷플롯립 사용하기import matplotlib.pyplot as plt as 뒤는 별칭이고, ".pyplot"을 사용하는 이유는 코드를 간결하게 작성하기 위함이다. 간단한 그래프를 만들어보고 출력해보자plt.plot([1, 2], [2, 4])plt.show() plot : 데이터 집합을 나타내기 위한 기술 이 코드를 수행하면 (1,2) (2,4)를 지나는 직선이 출력된다.y = [2, 3, 4, 5]plt.plot(y)plt.show()이 코드는 y의 리스트 값들이 y값이 되고, x값은 [0, 1, .. 2025. 2. 28.
[Data Analysis 공부] Pandas 실습 2장을 공부하고 복습한 후, 책 바로 뒤에 나오는 연습문제를 풀어보았다. ## 판다스, 넘파이 라이브러리 불러오기import numpy as npimport pandas as pd## 파이썬 딕셔너리 정의customer_dic = {'name' : ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank', 'Grace', 'Hyemin'], 'comment_length' : [150, 200, 50, 300, 120, 180, 75, 160], 'likes' : [25, 30, 10, 45, 20, 35, 5, 28], 'is_spam' :.. 2025. 2. 25.
[Data Analysis 공부] Pandas 이번부터 티스토리에서 작성한다. 벨로그에서의 글쓰기 실력이 점점 는다는 것을 스스로 느꼈는데, 티스토리에서는 잘 써질지 의문이다. 어차피 나중에는 잘 써질테니 걱정은 안한다! 금일은 pandas(판다스)라는 파이썬 라이브러리에 대해 배웠다.2장. 데이터 처리, 라이브러리, 판다스2.1 판다스 시작하기판다스 : 행렬 데이터를 다루고 분석하는 데 사용, Panel Data(계량경제한 용어)에서 따옴.넘파이를 1장에서 배웠는데, 왜 판다스를 알아야하고, 넘파이보다 나은 점이 무엇인지 알아보자 판다스를 사용해야 하는 이유강력한 데이터 전처리 기능 : 정교하게 데이터 분석을 진행할 수 있다.유연하고 직관적인 인덱싱 : 데이터 접근과 처리가 효율적이다.통계 및 요약 정보 제공 : 데이터 분석에 관련된 많은 함수가 .. 2025. 2. 23.
[Data Analysis 공부] Numpy 실습 마지막 벨로그 글, 이제부터는 티스토리!이번에는 1장 연습문제를 풀고, 답을 맞춰보았다.연습문제 1번처음이라 코랩 파일을 활용하면 더 편했을 텐데, 그걸 몰랐다. 다음부터는 반드시 활용해야겠다. import numpy as npcustomer = np.array([[150, 25, 0], [200, 30, 0], [50, 10, 1], [300, 45, 0]])print(customer)연습문제 2번import numpy as npcustomer = np.array([[150, 25, 0], [200, 30, 0], [50, 10, 1], [300, 45, 0]])new_customer = np.array([[120, 20, 0], [180, 35, 1], [75, 5, 0], [160, 25, 0]]).. 2025. 2. 23.
[Data Analysis 공부] Numpy 아직도 벨로그로 작성한 글이 꽤 많다. 그래도 이제 하나만 남았다!오늘부터 "파이썬 데이터 분석가 되기" 책으로 AI 공부를 시작한다.추가로, "점프 투 파이썬" 강의도 함께 병행할 예정이다.# 1장 : 수치 계산 라이브러리, 넘파이첫 줄에import numpy as np로 넘파이 라이브러리를 불러온다. 이제 np로 코드를 작성하면 된다.(as 뒤가 별칭으로 사용) ndarray(n-dimensional array): 다차원 배열을 지원하는 넘파이의 핵심 객체arr = np.array([1, 2, 3, 4, 5])print(arr)>>> [1 2 3 4 5]로 출력된다. 오, 쉼표가 없다!이 배열은 벡터처럼 구현되었기 때문에 arr에 *2를 하면 [2 4 6 8 10]이 된다.#### 2차원 배열 사용a.. 2025. 2. 23.