일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- PCCP
- Snowflake
- HTML
- 코딩 테스트
- superset
- VPC
- 데이터 엔지니어
- GCP
- AWS
- Kafka
- 팀 프로젝트
- 코테 연습
- 데이터 시각화
- 코딩테스트
- cloud platform
- 슈퍼셋
- Til
- 데브코스
- SQL
- Spark
- beuatifulsoup
- Selenium
- django
- airflow
- Tableau
- Today
- Total
주니어 데이터 엔지니어 우솨's 개발일지
데이터 엔지니어링 32일차 TIL 본문
학습 내용
Redshift
: AWS에서 지원하는 데이터 웨어하우스 서비스
- 2PB의 데이터까지 처리가능(최소 160GB부터 점진적으로 용량증가 가능)
- Still OLAP : 응답속도가 빠르지 않기 때문에 프로덕션 데이터베이스로 사용불가
- 컬럼 기반 스토리지 : 컬럼별로 저장하며, 컬럼별 압축이 가능하고 컬럼의 추가와 삭제하는 것이 아주 빠르다.
- 벌크 업데이트 지원 : 레코드가 들어있는 파일을 S3로 복사 후 COPY커맨드로 Redshift로 일괄 복사
- 고정용량/비용 SQL엔진 : 최근엔 가변 비용 옵션도 제공(Redshift Serverless)
- 데이터 공유 기능 : 다른 AWS 계정과 특정 데이터 공유가능
- Primary key(기본 키) uinqueness를 보장하지 않는다.
Redshift의 스케일링 방식
: 용량이 부족해질 때마다 새로운 노드를 추가하는 방식
- Scale Out : 한대를 더 추가
- Scale Up : 사양이 더 좋은 것으로 업그레이드
- 이를 Resizing이라 부르며 Auto Scaling 옵션을 설정하면 자동으로 이루어 진다.
Redshift의 레코드 분배와 저장방식
: Redshift의 최적화는 굉장이 복잡하다
- 두 대 이상의 노드로 구성되면 직접 순서를 정해주어야한다.
- 두 대 이상의 노드로 구성되면 그 시점부터 테이블 최적화가 중요하다
- Distkey, Diststyle, Srotkey 세개의 키워드를 알아야 한다.
- Distkey : 레코드가 어떤컬럼을 기준으로 배포되는지 나타냄 (Diststyle이 key인 경우)
- Diststyle : 레코드 분배가 어떻게 이뤄지는지를 결정(all, even, key 디폴트는 'even')
- Sortkey : 레코드가 한 노드내에서 어떤 컬럼을 기준으로 정렬되는지 나타냄(보통 타임스탬프 필드)
Redshift의 기본 데이터 타입
- SMALLINT (INT2)
- INTEGER (INT, INT4)
- BIGINT (INT8)
- DECIMAL (NUMERIC)
- REAL (FLOAT4)
- DOUBLE PRECISION (FLOAT8)
- BOOLEAN (BOOL)
- CHAR (CHARACTER)
- VARCHAR (CHARACTER VARYING)
- TEXT (VARCHAR(256))
- DATE
- TIMESTAMP
고급 데이터 타입
- GEOMETRY
- GEOGRAPHY
- HLLSKETCH
- SUPER
1. Redshift Serverless 작업그룹 - 퍼블릭 액세스 가능으로 변경
2. vpc보안그룹 인바운드규칙 포트 : 5439, 0.0.0.0/0으로 규칙저장
현재 구글 코랩 버전 충돌(버전의 다운그레이드 필요)
!pip install ipython-sql==0.4.1
!pip install SQLAlchemy==1.4.47
Redshift의 구조
데이터베이스는 2중 구조를 가진다
(스키마 = 폴더라고 생각하면 편하다)
스키마(Schema) 설정
모든 스키마를 리스트하기 : select* from pg_namespace;
모든 사용자를 리스트하기 : select* from pg_user;
모든 그룹을 리스트하기 : select* from pg_group;
모든 역할(ROLE)을 리스트하기 : select* from SVV_ROLES;
스키마 생성
CREATE SCHEMA raw_data;
CREATE SCHEMA analytics;
CREATE SCHEMA adhoc;
CREATE SCHEMA pii;
사용자(User) 생성
CREATE USER 이름 PASSWORD '비밀번호';
그룹생성
- 한 사용자는 다수의 그룹에 속할 수 있다
- 그룹은 계승이 안된다는 문제가 있다 : 그룹이 많아지면 관리가 힘들어진다
CREATE GROUP analytics_users;
CREATE GROUP analytics_authors;
CREATE GROUP pii_users;
그룹에 사용자추가
ALTER GROUP analytics_users ADD USER 이름;
ALTER GROUP analytics_authors ADD USER 이름;
ALTER GROUP pii_users ADD USER 이름;
역할(ROLE) 생성
- 역할은 그룹과 달리 계승구조를 만들 수 있다
- 역할은 사용자에게 부여될 수도 있고 다른 역할에 부여될 수도 있다
- 한 사용자는 다수의 역할에 소속될 수 있다
CREATE ROLE staff;
CREATE ROLE manager;
CREATE ROLE external;
GRANT ROLE staff TO 이름;
계승 : GRANT ROLE staff TO ROLE manager;
매니저는 스탭의 역할을 계승한다
COPY명령어 사용방법
1. 각 테이블을 CREATE_TABLE 명령으로 raw_data 스키마 밑에 생성
2. S3버킷을 미리생성 후 각 테이블의 입력이 되는 CSV파일을 먼저 S3로 복사
3. S3에 접근할 수 있는 역할(IAM)을 만들고 이 역할을 Redshift클러스터에 지정 - S3에서 해당 테이블로 복사하려면 Redshift가 S3의 접근권한을 가져야한다
스키마 이름 조회
show schemas from database dev;
테이블 이름 조회
select * from pg_tables where schemaname = '스키마이름';
테이블 정보 조회
select * from raw_data.테이블이름;
느낀 점
처음으로 Redshift를 사용해 보았고, 되게 신기한 경험이었다.
기존에 배웠던 SQL언어의 중요성을 더 실감할 수 있었다.
Redshift를 사용하면서 Schema에 든 내용물이나 컬럼등을 확인하는 방법을 구글링을 통해 알 수 있었는데, Redshift의 기본적인 구조 파악할 수 있었고, 좀 더 세밀히 알아봐야 하겠다는 생각이 들었다.
'데브코스' 카테고리의 다른 글
데이터 엔지니어링 34일차 TIL (0) | 2024.05.09 |
---|---|
데이터 엔지니어링 33일차 TIL (0) | 2024.05.09 |
데이터 엔지니어링 31일차 TIL (0) | 2024.05.09 |
데이터 엔지니어링 30일차 TIL (0) | 2024.05.09 |
데이터 엔지니어링 29일차 TIL (0) | 2024.05.09 |