주니어 데이터 엔지니어 우솨's 개발일지

데이터 엔지니어링 32일차 TIL 본문

데브코스

데이터 엔지니어링 32일차 TIL

우솨 2024. 5. 9. 18:47

학습 내용

Redshift
: AWS에서 지원하는 데이터 웨어하우스 서비스
- 2PB의 데이터까지 처리가능(최소 160GB부터 점진적으로 용량증가 가능)
- Still OLAP : 응답속도가 빠르지 않기 때문에 프로덕션 데이터베이스로 사용불가
- 컬럼 기반 스토리지 : 컬럼별로 저장하며, 컬럼별 압축이 가능하고 컬럼의 추가와 삭제하는 것이 아주 빠르다.
- 벌크 업데이트 지원 : 레코드가 들어있는 파일을 S3로 복사 후 COPY커맨드로 Redshift로 일괄 복사
- 고정용량/비용 SQL엔진 : 최근엔 가변 비용 옵션도 제공(Redshift Serverless)
- 데이터 공유 기능 : 다른 AWS 계정과 특정 데이터 공유가능
- Primary key(기본 키) uinqueness를 보장하지 않는다.

Redshift의 스케일링 방식
: 용량이 부족해질 때마다 새로운 노드를 추가하는 방식
- Scale Out : 한대를 더 추가
- Scale Up : 사양이 더 좋은 것으로 업그레이드
- 이를 Resizing이라 부르며 Auto Scaling 옵션을 설정하면 자동으로 이루어 진다.

Redshift의 레코드 분배와 저장방식
: Redshift의 최적화는 굉장이 복잡하다
- 두 대 이상의 노드로 구성되면 직접 순서를 정해주어야한다.
- 두 대 이상의 노드로 구성되면 그 시점부터 테이블 최적화가 중요하다
- Distkey, Diststyle, Srotkey 세개의 키워드를 알아야 한다.
- Distkey : 레코드가 어떤컬럼을 기준으로 배포되는지 나타냄 (Diststyle이 key인 경우)
- Diststyle : 레코드 분배가 어떻게 이뤄지는지를 결정(all, even, key 디폴트는 'even')
- Sortkey : 레코드가 한 노드내에서 어떤 컬럼을 기준으로 정렬되는지 나타냄(보통 타임스탬프 필드)

Redshift의 기본 데이터 타입
- SMALLINT (INT2)
- INTEGER (INT, INT4)
- BIGINT (INT8)
- DECIMAL (NUMERIC)
- REAL (FLOAT4)
- DOUBLE PRECISION (FLOAT8)
- BOOLEAN (BOOL)
- CHAR (CHARACTER)
- VARCHAR (CHARACTER VARYING)
- TEXT (VARCHAR(256))
- DATE
- TIMESTAMP
고급 데이터 타입
- GEOMETRY
- GEOGRAPHY
- HLLSKETCH
- SUPER

1. Redshift Serverless 작업그룹 - 퍼블릭 액세스 가능으로 변경
2. vpc보안그룹 인바운드규칙 포트 : 5439, 0.0.0.0/0으로 규칙저장


현재 구글 코랩 버전 충돌(버전의 다운그레이드 필요)
!pip install ipython-sql==0.4.1
!pip install SQLAlchemy==1.4.47

 

Redshift의 구조

데이터베이스는 2중 구조를 가진다
(스키마 = 폴더라고 생각하면 편하다)



스키마(Schema) 설정
모든 스키마를 리스트하기 : select* from pg_namespace;
모든 사용자를 리스트하기 : select* from pg_user;
모든 그룹을 리스트하기 : select* from pg_group;
모든 역할(ROLE)을 리스트하기 : select* from SVV_ROLES;

스키마 생성
CREATE SCHEMA raw_data;
CREATE SCHEMA analytics;
CREATE SCHEMA adhoc;
CREATE SCHEMA pii;

사용자(User) 생성
CREATE USER 이름 PASSWORD '비밀번호';

그룹생성
- 한 사용자는 다수의 그룹에 속할 수 있다
- 그룹은 계승이 안된다는 문제가 있다 : 그룹이 많아지면 관리가 힘들어진다
CREATE GROUP analytics_users;
CREATE GROUP analytics_authors;
CREATE GROUP pii_users;

그룹에 사용자추가
ALTER GROUP analytics_users ADD USER 이름;
ALTER GROUP analytics_authors ADD USER 이름;
ALTER GROUP pii_users ADD USER 이름;

역할(ROLE) 생성
- 역할은 그룹과 달리 계승구조를 만들 수 있다
- 역할은 사용자에게 부여될 수도 있고 다른 역할에 부여될 수도 있다
- 한 사용자는 다수의 역할에 소속될 수 있다
CREATE ROLE staff;
CREATE ROLE manager;
CREATE ROLE external;

GRANT ROLE staff TO 이름;
계승 : GRANT ROLE staff TO ROLE manager;
매니저는 스탭의 역할을 계승한다

COPY명령어 사용방법
1. 각 테이블을 CREATE_TABLE 명령으로 raw_data 스키마 밑에 생성
2. S3버킷을 미리생성 후 각 테이블의 입력이 되는 CSV파일을 먼저 S3로 복사
3. S3에 접근할 수 있는 역할(IAM)을 만들고 이 역할을 Redshift클러스터에 지정 - S3에서 해당 테이블로 복사하려면 Redshift가 S3의 접근권한을 가져야한다

스키마 이름 조회 
show schemas from database dev;
테이블 이름 조회
select * from pg_tables where schemaname = '스키마이름';
테이블 정보 조회
select * from raw_data.테이블이름;

 

느낀 점

처음으로 Redshift를 사용해 보았고, 되게 신기한 경험이었다.

기존에 배웠던 SQL언어의 중요성을 더 실감할 수 있었다.

Redshift를 사용하면서 Schema에 든 내용물이나 컬럼등을 확인하는 방법을 구글링을 통해 알 수 있었는데, Redshift의 기본적인 구조 파악할 수 있었고, 좀 더 세밀히 알아봐야 하겠다는 생각이 들었다.