일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- airflow
- 데브코스
- 팀 프로젝트
- Snowflake
- SQL
- VPC
- beuatifulsoup
- Til
- 슈퍼셋
- Selenium
- HTML
- PCCP
- superset
- 데이터 엔지니어
- Tableau
- GCP
- 데이터 시각화
- 코테 연습
- Spark
- cloud platform
- Kafka
- AWS
- django
- 코딩테스트
- 코딩 테스트
- Today
- Total
목록분류 전체보기 (126)
주니어 데이터 엔지니어 우솨's 개발일지
학습 내용Redshift : AWS에서 지원하는 데이터 웨어하우스 서비스 - 2PB의 데이터까지 처리가능(최소 160GB부터 점진적으로 용량증가 가능) - Still OLAP : 응답속도가 빠르지 않기 때문에 프로덕션 데이터베이스로 사용불가 - 컬럼 기반 스토리지 : 컬럼별로 저장하며, 컬럼별 압축이 가능하고 컬럼의 추가와 삭제하는 것이 아주 빠르다. - 벌크 업데이트 지원 : 레코드가 들어있는 파일을 S3로 복사 후 COPY커맨드로 Redshift로 일괄 복사 - 고정용량/비용 SQL엔진 : 최근엔 가변 비용 옵션도 제공(Redshift Serverless) - 데이터 공유 기능 : 다른 AWS 계정과 특정 데이터 공유가능 - Primary key(기본 키) uinqueness를 보장하지 않는다. Re..
학습 내용데이터 조직의 비전은? 신뢰할 수 있는 데이터를 바탕으로 부가가치를 생성하는것 - 고품질 데이터를 기반으로 의사 결정권자에게 입력 제공 - 결정과학이라고 부르기도 하며 데이터를 고려한 결정을 가능하게 해준다 - 고품질 데이터를 기반으로 사용자 서비스 경험 개선 혹은 프로세스 최적화(머신러닝과 같은 알고리즘을 통해 사용자의 서비스 경험을 개선) 데이터 웨어하우스 : 회사에 필요한 모든 데이터를 모아놓은 중앙 데이터베이스(SQL 데이터베이스) - 회사의 데이터웨어하우스를 사용하는 데이터 기술을 물어봐야한다. - 프로덕션용 데이터베이스와 별개의 데이터베이스여야 한다. ETL(Extract, Transform, Load) : 다른곳에 존재하는 데이터를 가져다가 데이터 웨어하우스에 로드하는 작업(데이터 ..
학습 내용 Docker : 애플리케이션을 신속하게 구축, 테스트 및 배포할 수 있는 소프트웨어 플랫폼 - 환경에 구애받지 않고 애플리케이션을 신속하게 배포 및 확장할 수 있다. - 포트포워딩을 해주어야 한다. - Docker-compose : 여러 도커를 관리 가능 이미지(Image) : 컨테이너를 생성할 때 필요한 요소로 컨테이너의 목적에 맞는 바이너리와 의존성이 설치되어 있음 - 여러개의 계층으로 된 바이너리 파일로 존재컨테이너(Container) : 호스트와 다른 컨테이너로부터 격리된 시스템 자원과 네트워크를 사용하는 프로세스 - 이미지는 읽기전용으로 사용하여 변경사항은 컨테이너 계층에 저장 - 컨테이너에서 무엇을 하든 이미지는 영향을 받지 않음 명령어container 명령어 container 생..
학습 내용 Elastic Beanstalk 포트 확인 : netstat -an | grep 5000 엘라스틱빈스토크는 기본적으로 5000번 포트로 포워딩된다. cd /var/log 로 이동 후 ls 로그 확인 가능 AWS의 엘라스틱빈스토크에서 왼쪽의 로그를 눌러도 확인가능. Front 1. S3 버킷을 만들어 파일 업로드 2. S3 속성 - 정적 웹 사이트 호스팅 켜기 3. S3 권한 - 퍼블릭 액세스 활성화 4. 정책 생성 후 넣어주기 5. 엔드포인트로 접속하면 배포가 된다 Code pipeline : Code Source - Code Build - Code Deploy 순 Code build 의 buildspec 편집 : version: 0.2 build: commands: - ./gradlew bu..
학습내용IAM(Identity and Access Management) : 리소스에 대한 액세스를 안전하게 제어할 수 있는 웹 서비스 - IAM을 사용하여 리소스를 사용하도록 인증(로그인) 및 권한 부여된 대상을 제어한다. - AWS계정을 생성할 때는 해당 계정의 모든 AWS 서비스 및 리소스에 대한 완전한 액세스 권한이 있는 단일 로그인 ID로 시작한다. - 이 자격 증명은 AWS 계정 루트 사용자라고 하며, 계정을 생성할 때 사용한 이메일 주소와 암호로 로그인하여 액세스한다. - 일상적인 작업에 루트 사용자를 사용하지 않을 것을 강력히 권장한다 !! S3(Amazon Simple Storage Service(Amazon S3)) : 업계 최고의 확장성, 데이터 가용성, 보안 및 성능을 제공하는 객체 ..
학습 내용SQL : 정형데이터 관리 NOSQL : 비정형데이터 관리 (Key-Value, Graph, Document, Column store 등) RDS -DB 인스턴스는 클라우드에서 실행하는 격리된 데이터베이스 환경이다. - DB 인스턴스에는 여러 사용자가 만든 데이터베이스가 포함될 수 있으며, 독립 실행형 데이터베이스 인스턴스에 액세스할 때 사용하는 도구 및 애플리케이션을 사용해 액세스 할 수 있다. - AWS 명령줄 도구, Amazon RDS API작업 또는 AWS Management Console을 사용해 간단히 DB인스턴스를 만들고 수정할 수 있다. - RDS는 serverless가 아니다. Document DB - MongoDB API 워크로드의 완전 관리 및 유연한 확장이 가능한 문서전용(..