주니어 데이터 엔지니어 우솨's 개발일지

데이터 엔지니어링 51일차 TIL 본문

데브코스

데이터 엔지니어링 51일차 TIL

우솨 2024. 6. 5. 19:37

학습내용

Docker 기반 airflow 실행
1. git clone https://github.com/learndataeng/learn-airflow.git
2. cd learn-airflow
3. curl -LfO 'https://airflow.apache.org/docs/apache-airflow/2.5.1/docker-compose.yaml'

curl 
: client url의 약자로  데이터를 URL을 통해 전송하기 위한 명령줄 도구이다.
curl -LfO 'https://airflow.apache.org/docs/apache-airflow/2.5.1/docker-compose.yaml' 뜻
 -L: --location의 약자로, 서버가 리다이렉션을 지시하는 경우 해당 URL을 따라가도록 한다. HTTP 응답 코드가 3xx로 시작하는 경우, curl은 새로운 위치로 요청을 재시도한다.
-f: --fail의 약자로, 서버 응답 코드가 400 이상인 경우 curl이 아무 출력도 하지 않도록 한다. 오류가 발생하면 데이터 출력 없이 실패 상태로 종료한다.
-O: --remote-name의 약자로, URL의 파일 이름을 사용하여 파일을 저장한다. 이 경우, docker-compose.yaml 파일이 현재 디렉토리에 저장된다.
=>Apache Airflow 2.5.1 문서에 있는 docker-compose.yaml 파일을 현재 디렉토리에 다운로드

docker-compose.yaml 수정
1. _PIP_ADDITIONAL_REQUIREMENTS수정


2. data 폴더를 호스트 폴더에서 만들고 볼륨으로 공유 : 임시 데이터를 저장할 폴더
    - 이를 docker volume으로 지정해서 나중에 디버깅에 사용