데이터 엔지니어링 32일차 TIL

Notice

Recent Posts

Recent Comments

Link

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

주니어 데이터 엔지니어 우솨's 개발일지

데이터 엔지니어링 32일차 TIL 본문

데브코스

데이터 엔지니어링 32일차 TIL

우솨 2024. 5. 9. 18:47

학습 내용

Redshift
: AWS에서 지원하는 데이터 웨어하우스 서비스
- 2PB의 데이터까지 처리가능(최소 160GB부터 점진적으로 용량증가 가능)
- Still OLAP : 응답속도가 빠르지 않기 때문에 프로덕션 데이터베이스로 사용불가
- 컬럼 기반 스토리지 : 컬럼별로 저장하며, 컬럼별 압축이 가능하고 컬럼의 추가와 삭제하는 것이 아주 빠르다.
- 벌크 업데이트 지원 : 레코드가 들어있는 파일을 S3로 복사 후 COPY커맨드로 Redshift로 일괄 복사
- 고정용량/비용 SQL엔진 : 최근엔 가변 비용 옵션도 제공(Redshift Serverless)
- 데이터 공유 기능 : 다른 AWS 계정과 특정 데이터 공유가능
- Primary key(기본 키) uinqueness를 보장하지 않는다.

Redshift의 스케일링 방식
: 용량이 부족해질 때마다 새로운 노드를 추가하는 방식
- Scale Out : 한대를 더 추가
- Scale Up : 사양이 더 좋은 것으로 업그레이드
- 이를 Resizing이라 부르며 Auto Scaling 옵션을 설정하면 자동으로 이루어 진다.

Redshift의 레코드 분배와 저장방식
: Redshift의 최적화는 굉장이 복잡하다
- 두 대 이상의 노드로 구성되면 직접 순서를 정해주어야한다.
- 두 대 이상의 노드로 구성되면 그 시점부터 테이블 최적화가 중요하다
- Distkey, Diststyle, Srotkey 세개의 키워드를 알아야 한다.
- Distkey : 레코드가 어떤컬럼을 기준으로 배포되는지 나타냄 (Diststyle이 key인 경우)
- Diststyle : 레코드 분배가 어떻게 이뤄지는지를 결정(all, even, key 디폴트는 'even')
- Sortkey : 레코드가 한 노드내에서 어떤 컬럼을 기준으로 정렬되는지 나타냄(보통 타임스탬프 필드)

Redshift의 기본 데이터 타입
- SMALLINT (INT2)
- INTEGER (INT, INT4)
- BIGINT (INT8)
- DECIMAL (NUMERIC)
- REAL (FLOAT4)
- DOUBLE PRECISION (FLOAT8)
- BOOLEAN (BOOL)
- CHAR (CHARACTER)
- VARCHAR (CHARACTER VARYING)
- TEXT (VARCHAR(256))
- DATE
- TIMESTAMP
고급 데이터 타입
- GEOMETRY
- GEOGRAPHY
- HLLSKETCH
- SUPER

1. Redshift Serverless 작업그룹 - 퍼블릭 액세스 가능으로 변경
2. vpc보안그룹 인바운드규칙 포트 : 5439, 0.0.0.0/0으로 규칙저장

현재 구글 코랩 버전 충돌(버전의 다운그레이드 필요)
!pip install ipython-sql==0.4.1
!pip install SQLAlchemy==1.4.47

Redshift의 구조

데이터베이스는 2중 구조를 가진다
(스키마 = 폴더라고 생각하면 편하다)

스키마(Schema) 설정
모든 스키마를 리스트하기 : select* from pg_namespace;
모든 사용자를 리스트하기 : select* from pg_user;
모든 그룹을 리스트하기 : select* from pg_group;
모든 역할(ROLE)을 리스트하기 : select* from SVV_ROLES;

스키마 생성
CREATE SCHEMA raw_data;
CREATE SCHEMA analytics;
CREATE SCHEMA adhoc;
CREATE SCHEMA pii;

사용자(User) 생성
CREATE USER 이름 PASSWORD '비밀번호';

그룹생성
- 한 사용자는 다수의 그룹에 속할 수 있다
- 그룹은 계승이 안된다는 문제가 있다 : 그룹이 많아지면 관리가 힘들어진다
CREATE GROUP analytics_users;
CREATE GROUP analytics_authors;
CREATE GROUP pii_users;

그룹에 사용자추가
ALTER GROUP analytics_users ADD USER 이름;
ALTER GROUP analytics_authors ADD USER 이름;
ALTER GROUP pii_users ADD USER 이름;

역할(ROLE) 생성
- 역할은 그룹과 달리 계승구조를 만들 수 있다
- 역할은 사용자에게 부여될 수도 있고 다른 역할에 부여될 수도 있다
- 한 사용자는 다수의 역할에 소속될 수 있다
CREATE ROLE staff;
CREATE ROLE manager;
CREATE ROLE external;

GRANT ROLE staff TO 이름;
계승 : GRANT ROLE staff TO ROLE manager;
매니저는 스탭의 역할을 계승한다

COPY명령어 사용방법
1. 각 테이블을 CREATE_TABLE 명령으로 raw_data 스키마 밑에 생성
2. S3버킷을 미리생성 후 각 테이블의 입력이 되는 CSV파일을 먼저 S3로 복사
3. S3에 접근할 수 있는 역할(IAM)을 만들고 이 역할을 Redshift클러스터에 지정 - S3에서 해당 테이블로 복사하려면 Redshift가 S3의 접근권한을 가져야한다

스키마 이름 조회
show schemas from database dev;
테이블 이름 조회
select * from pg_tables where schemaname = '스키마이름';
테이블 정보 조회
select * from raw_data.테이블이름;

느낀 점

처음으로 Redshift를 사용해 보았고, 되게 신기한 경험이었다.

기존에 배웠던 SQL언어의 중요성을 더 실감할 수 있었다.

Redshift를 사용하면서 Schema에 든 내용물이나 컬럼등을 확인하는 방법을 구글링을 통해 알 수 있었는데, Redshift의 기본적인 구조 파악할 수 있었고, 좀 더 세밀히 알아봐야 하겠다는 생각이 들었다.

'데브코스' 카테고리의 다른 글

데이터 엔지니어링 34일차 TIL (0)	2024.05.09
데이터 엔지니어링 33일차 TIL (0)	2024.05.09
데이터 엔지니어링 31일차 TIL (0)	2024.05.09
데이터 엔지니어링 30일차 TIL (0)	2024.05.09
데이터 엔지니어링 29일차 TIL (0)	2024.05.09

'데브코스' Related Articles

주니어 데이터 엔지니어 우솨's 개발일지

데이터 엔지니어링 32일차 TIL 본문

데이터 엔지니어링 32일차 TIL

학습 내용

'데브코스' 카테고리의 다른 글

티스토리툴바