전체 글160 데이터 엔지니어링 35일차 TIL 학습내용시각화 툴이란? : 대시보드 혹은 BI(Business Intelligence)툴이라고 부르기도 한다. - KPI(Key Performance Indicator), 지표, 중요한 데이터 포인트들을 데이터를 기반으로 계산/분석/표시해주는 툴 - 현업 종사자들이 데이터 분석을 쉽게 할 수 있도록 해줌 시각화 툴의 종류 - Excel, Google Spreadsheet : 가장 많이 쓰이는 시각화 툴 - Python : 데이터 분석(EDA)에 더 적합 - Looker (구글) - Tableau (세일즈포스) - Power BI (마이크로소프트) - Apache Superset (오픈소스) - Mode Analytics, ReDash - Google Studio - AWS Quicksight Looker.. 2024. 6. 5. Superset에 SnowFlake DB 연동하기 1. 먼저 도커를 이용하여 Superset 활성화 2. 활성된 컨테이너 확인 - Superset_app의 컨테이너ID를 확인 $ Docker ps 3. 도커에서 Superset_app 의 컨테이너ID를 간편하게 볼 수 있다.4. Superset_app 으로 진입$ docker exec -it {컨테이너ID} bashEX)$ docker exec -it 2b7478e1d9d0249d3562645cdaeec961105e981769016f915a542cb989058056 bash 5. 컨테이너 안에 snowflake-sqlalchemy 설치pip install snowflake-sqlalchemyexit 으로 컨테이너에서 나올 수 있다.6. 도커 종료 후 컨테이너 재실행 7. localhost:8088.. 2024. 5. 13. 데이터 엔지니어링 34일차 TIL 학습 내용Snowflake : 2014년 클라우드 기반 데이터웨어하우스로 시작(2020년 상장) - 스토리지와 컴퓨팅 인프라가 별도로 설정되는 가변 비용 모델 - SQL 기반으로 빅데이터 저장, 처리, 분석이 가능(비구조화된 데이터처리와 머신러닝 기능도 제공) - CSV, JSON, Avro, Parquet 등과 같은 다양한 데이터 포맷을 지원 - 배치 데이터 중심이지만, 실시간 데이터 처리 지원 - Time Travel : 과거 데이터 쿼리 기능으로 트렌드를 분석하기 쉽게 해줌 - 웹 콘솔 이외에도 Python API를 통한 관리/제어 가능(ODBC,JDBC 연결도 지원) - 자체 스토리지 이외에도 클라우드 스토리지를 외부 테이블로 사용가능 - Group을 지원하지 않는다!! Snowflake 특징 O.. 2024. 5. 9. 데이터 엔지니어링 33일차 TIL 학습 내용사용자별 테이블 권한 설정 : 역할(Role) 혹은 그룹(Group) 별로 스키마별로 접근 권한을 주는 것이 일반적이다. - RBAC(Role Based Access Control)가 새로운 트렌드 : 여러 역할에 속한 사용자의 경우 각 역할의 권한을 모두 갖게됨(Inclusive) - 개인정보와 관련된 테이블들이라면 별도 스키마 설정 : 극히 일부만 지급 EX) 1. 스키마 엑세스 권한 주기 : GRANT ALL ON SCHEMA analytics TO GROUP analytics_authors; 2. 모든 권한 주기 : GRANT ALL ON ALL TABLES IN SCHEMA analytics TO GROUP analytics_authors;1. 읽기 권한 줄땐 USAGE를 사용한다.GR.. 2024. 5. 9. 데이터 엔지니어링 32일차 TIL 학습 내용Redshift : AWS에서 지원하는 데이터 웨어하우스 서비스 - 2PB의 데이터까지 처리가능(최소 160GB부터 점진적으로 용량증가 가능) - Still OLAP : 응답속도가 빠르지 않기 때문에 프로덕션 데이터베이스로 사용불가 - 컬럼 기반 스토리지 : 컬럼별로 저장하며, 컬럼별 압축이 가능하고 컬럼의 추가와 삭제하는 것이 아주 빠르다. - 벌크 업데이트 지원 : 레코드가 들어있는 파일을 S3로 복사 후 COPY커맨드로 Redshift로 일괄 복사 - 고정용량/비용 SQL엔진 : 최근엔 가변 비용 옵션도 제공(Redshift Serverless) - 데이터 공유 기능 : 다른 AWS 계정과 특정 데이터 공유가능 - Primary key(기본 키) uinqueness를 보장하지 않는다. Re.. 2024. 5. 9. 데이터 엔지니어링 31일차 TIL 학습 내용데이터 조직의 비전은? 신뢰할 수 있는 데이터를 바탕으로 부가가치를 생성하는것 - 고품질 데이터를 기반으로 의사 결정권자에게 입력 제공 - 결정과학이라고 부르기도 하며 데이터를 고려한 결정을 가능하게 해준다 - 고품질 데이터를 기반으로 사용자 서비스 경험 개선 혹은 프로세스 최적화(머신러닝과 같은 알고리즘을 통해 사용자의 서비스 경험을 개선) 데이터 웨어하우스 : 회사에 필요한 모든 데이터를 모아놓은 중앙 데이터베이스(SQL 데이터베이스) - 회사의 데이터웨어하우스를 사용하는 데이터 기술을 물어봐야한다. - 프로덕션용 데이터베이스와 별개의 데이터베이스여야 한다. ETL(Extract, Transform, Load) : 다른곳에 존재하는 데이터를 가져다가 데이터 웨어하우스에 로드하는 작업(데이터 .. 2024. 5. 9. 이전 1 ··· 15 16 17 18 19 20 21 ··· 27 다음