본문 바로가기
데브코스

데이터 엔지니어링 35일차 TIL

by 우솨 2024. 6. 5.

학습내용

시각화 툴이란?
: 대시보드 혹은 BI(Business Intelligence)툴이라고 부르기도 한다.
- KPI(Key Performance Indicator), 지표, 중요한 데이터 포인트들을 데이터를 기반으로 계산/분석/표시해주는 툴
- 현업 종사자들이 데이터 분석을 쉽게 할 수 있도록 해줌
시각화 툴의 종류
- Excel, Google Spreadsheet : 가장 많이 쓰이는 시각화 툴
- Python : 데이터 분석(EDA)에 더 적합
- Looker (구글)
- Tableau (세일즈포스)
- Power BI (마이크로소프트)
- Apache Superset (오픈소스)
- Mode Analytics, ReDash
- Google Studio
- AWS Quicksight

Looker
: 2012년 미국 캘리포니아 산타크루즈에서 시작(구글이 2019년 인수)
- 지금은 구글 클라우드의 일부
- LookML이 자체언어로 데이터 모델을 만드는 것으로 시작
- 내부 고객뿐만 아니라 외부 고객을 위한 대시보드 작성가능
- 고가의 라이센스 정책을 갖고 있으나 굉장이 다양한 기능 제공
- 요즘 대세이지만 가격이 비싸다.

Tableau
: 2002년 미국 캘리포니아 마운틴뷰에서 시작하여 2013년 상장
- 다양한 제품군 보유, 일부는 무료 사용이 가능
- 제대로 배우려면 시간이 꽤 필요하지만 강력한 대시보드 작성가능
- Looker가 뜨기 전까지 오랫동안 마켓리더로 군림

ReDash
: 오픈소스로 시작
- Superset과 상당히 흡사
- 더 강력한 쿼리 에디터를 제공하지만 사용자 권한 관련 기능은 부족

Mode Analytics
: 2013년에 샌프라시스코에서 창업됨
- SQL, R, Python 등을 기반으로 데이터분석 가능
- KPI 대시보드라기 보다는 EDA(Exploratory Data Analysis)툴에 가깝다

Superset
: Airbnb에서 시작된 오픈소스
- 다양한 형태의 visualization과 손쉬운 인터페이스 지원
- 대시보드 공유 지원
- 엔터프라이즈 수준의 보안과 권한 제어 기능 제공
- SQLAlchemy와 연동
- Druid.io와 연동하여 실시간 데이터 시각화도 가능
- API와 플러그인 아키텍쳐 제공으로 인한 확장성이 좋다.

Superset 구조와 용어
- Flask와 React JS로 구성됨
- 기본으로 sqlite을 메타데이터 데이터베이스로 사용
- Redis를 캐싱레이어로 사용
- SqlAlchemy가 백엔드 DB접근에 사용됨

코호트(Cohort) 분석이란?
- 코호트(Cohort) : 같은 속성을 갖는 사용자
- 코호트를 기반으로 사용자의 이탈률, 잔존률, 총 소비금액 등을 계산
- 호코트 기반 사용자 잔존률(Retention) : 보통 월기반으로 시각화해서 보는 것이 일반적이다.

0. git checkout 1.4.0 버전 업그레이드
1. 슈퍼셋 다운 : git clone https://github.com/apache/superset.git
2. 슈퍼셋 폴더로 이동 : cd superset
3. 도커에 올리기 : docker-compose -f docker-compose-non-dev.yml pull
4. 도커에 올라간 것 실행 :docker-compose -f docker-compose-non-dev.yml up
5. http://localhost:8088 실행