전체 글160 데이터 엔지니어링 46일차 TIL 학습내용Airflow Executor란? - Executor는 Task들을 관리하고 실행하는 역할을 수행한다 - 병렬 혹은 일렬 실행이나 어느 worker에서 실행할지 등 - 다양한 수의 Executor타입이 존재 - Sequential Executor : 디폴트로 설치되며 Sqlite와 같은 싱글스레드 DB에서만 사용가능 - Local Executor : task들을 Airflow 마스터 노드안에서 실행한다 - Celery Executor : 다수의 Worker 노드가 있는 경우 사용되며 Celery 큐를 사용해 task들을 worker노드로 분산하여 실행한다. - Kubernetes Executor는 K8s 클러스터를 사용하여 task들을 독립된 환경에서 사용한다... 2024. 6. 5. 데이터 엔지니어링 45일차 TIL 학습내용ETL방법 - 카피하려는 테이블의 레코드 수가 적다면 INSERT INTO 사용 - 레코드의 수가 많다면 s3에서 redshift로 벌크 업데이트(COPY커맨드 사용) AWS S3 접근(Connections 설정) - Access Key ID와 Secret Access Key를 사용하는 걸로 바뀜 - 루트 사용자의 키들을 사용하면 해킹시 AWS 자원들을 마음대로 사용 가능 -> 여러번 사고가 남 - 우리가 사용해볼 Best Practice는: - IAM(Identity and Access Management)을 사용해 별도의 사용자를 만들고 - 그 사용자에게 해당 S3 bucket을 읽고 쓸 수 있는 권한을 제공하고 - 그 사용자의 Access Key ID와 Se.. 2024. 6. 5. 데이터 엔지니어링 44일차 TIL 학습내용airflow와 타임존 - airflow.cfg에는 두 종류의 타임존 관련 키가 존재 1. default_timezone 2. default_ui_timezone - start_date,end_date,schedule - dafault_timezone에 저장된 타임존을 따른다 - execution_date와 로그시간 - 항상 UTC를 따른다. - execution_date를 사용할때는 타임존을 고려해서 변환후 사용이 필요하다 => UTC를 일관되게 사용하는 것이 좋다. dags 폴더에서 코딩시 주의점 - dags 폴더를 주기적으로 스캔하기 때문에 본의 아니게 개발중인 테스트코드가 실행될 수 있다. Primary Key Uniqueness란? - 테이블에서 하나의 레코드.. 2024. 6. 5. 데이터 엔지니어링 43일차 TIL 학습내용Airflowdelete from - sql transaction을 존중 truncate - sql transaction을 존중하지 않고 전부 삭제Admin - Connections : 백엔드의 호스트 이름, 포트넘버 등을 저장 Admin - Variables : API Key, Value 등을 저장Xcom이란? : 태스크(Operator)들간에 데이터를 주고 받기 위한 방식 - 보통 한 Operator의 리턴값을 다른 Operator에서 읽어가는 형태가 된다. - 이 값들은 Airflow 메타 데이터 DB에 저장이 되기에 큰데이터를 주고 받는데에는 사용이 불가능하다. - 보통 큰 데이터는 S3등에 로드하고 그 위치를 넘기는 것이 일반적이다. cp -r : cp는 복사하는 기능, -r은 서브.. 2024. 6. 5. 데이터 엔지니어링 42일차 TIL 학습내용리눅스 이해 - 우분투 (ubuntu): 리눅스 타입 중의 하나. 다른 타입은 데비안, 레드햇, 페도라, ….. - ssh: 리눅스 혹은 유닉스 서버에 로그인해주는 프로그램 (터미널) - private key와 public key를 사용 - sudo: 보통 슈퍼유저로서 프로그램을 구동할 수 있도록 하는 프로그램이다. - apt-get: 우분투/데비안 계열의 리눅스에서 프로그램 설치/삭제를 관리해주는 프로그램 - apt-get update, apt-get install - su: substitue user의 약자로 현재 사용 중인 사용자 계정을 로그아웃하지 않고 다른 사용자의 권한을 얻을 때 사용한다 - vi: 텍스트 에디터. https://withcoding.com/112Airflow .. 2024. 6. 5. 데이터 엔지니어링 41일차 TIL 학습내용특강사용자 행동 데이터 분석 = 제품 분석 = 디지털 분석 - 이를 가능하게 해주는 툴을 제품 분석 플랫폼 또는 디지털 분석 플랫폼이라 부른다 - 제품/서비스에 대한 사용자 행동을 분석하고 이해하는 데 도움이 되는 툴 - 마케팅 기여도 분석용으로도 사용한다 제품 분석 플랫폼의 주요 특징과 기능 - 사용자 행동 데이터 수집 : 웹사이트, 모바일 앱, 백엔드 시스템 등 다양한 소스에서 데이터를 수집하여 사용자 행동에 대한 충분한 데이터 마련 - 사용자 세분화(User Segment) : 특정 속성이나 행동에 따라 사용자 그룹을 세분화 분석시 사용자 세그먼트에 따른 차이점과 인사이트 제공 - 퍼널 분석(Funnel Analysis) : 사용자 여정과 전환 퍼널을 분석하여 이탈 지점 등의 최적화 영역 파.. 2024. 6. 5. 이전 1 ··· 14 15 16 17 18 19 20 ··· 27 다음