주니어 데이터 엔지니어 우솨's 개발일지

데이터 엔지니어링 10일차 TIL 본문

데브코스

데이터 엔지니어링 10일차 TIL

우솨 2024. 4. 5. 15:35

학습내용

데이터 시각화
데이터 시각화를 위해서 Matplotlib이나 Seaborn라이브러리를 사용한다.

Seaborn
라이브러리
import seaborn as sns
꺾은선 그래프(Line Plot)
sns.lineplot(x=[1, 3, 2, 4], y=[4, 3, 2, 1])

막대 그래프(Bar Plot)
sns.barplot(x=[1,2,3,4],y=[0.7,0.2,0.1,0.05])

Matplotlib
라이브러리
import matplotlib.pyplot as plt

제목추가
plt.title('제목')

라벨추가
x축 : plt.xlabel('라벨')
y축 : plt.ylabel('라벨')

그래프의 축의 범위 지정
x축 : plt.xlim(0,10) - x축 범위를 0~10으로 지정
y축 : plt.ylim(0,10) - y축 범위를 0~10으로 지정

그래프의 크기를 지정
plt.figure(figsize = (x,y)) 그래프의 크기를 (x,y)의 크기로 지정
그래프 함수 위에 써주어야 한다.

Word Cloud
자주 등장하는 텍스트를 중요도나 인기도를 고려해 표현한 것

1. 자연어 문장에서 키워드를 추출
2. 키워드가 등장한 빈도를 측정
3. 앞에서 전처리한 정보를 바탕으로 Wordcloud를 생성

 

느낀 점

시각화 부분에 대해서 배우고 싶었는데 이번 기회에 seaborn이나 matplotlib외에 내가 몰랐던 다른 시각화 방법들을 배울 수 있어 너무 좋았다.

아나콘다에서 java_home의 환경변수로 애를 먹으면서 환경변수 설정의 중요성을 알았다.