일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 슈퍼셋
- Kafka
- AWS
- Tableau
- 코딩테스트
- VPC
- django
- 코딩 테스트
- 데이터 시각화
- 코테 연습
- Selenium
- Spark
- superset
- PCCP
- HTML
- 데이터 엔지니어
- 팀 프로젝트
- Snowflake
- SQL
- GCP
- airflow
- cloud platform
- 데브코스
- beuatifulsoup
- Til
- Today
- Total
목록분류 전체보기 (126)
주니어 데이터 엔지니어 우솨's 개발일지
학습 내용Spark 3.0의 구성 Spark Streaming이란? - 실시간 데이터 스트림 처리를 위한 spark API - Kafka, Kinesis, Flume, TCP 소켓 등의 다양한 소스에서 발생하는 데이터 처리 가능 - Join, Map, Reduce, Window와 같은 고급 함수 사용 가능 Spark Streaming 동작방식 - 데이터를 마이크로 배치로 처리 - 계속해서 위의 과정을 반복(루프) - 이렇게 읽은 데이터를 앞서 읽은 데이터에 머지 - 배치마다 데이터 위치 관리(시작과 끝) - Fault Tolerance와 데이터 재처리 관리(실패시) Spark Streaming의 내부 동작 - Spark Streaming은 실시간 입력 데이터 스트림을 배치로 나눈다음 - Spark En..
학습 내용kafka CLI Tool 접근 방법 - docker ps로 Broker의 Container ID 파악 - 해당 컨테이너로 로그인 => docker exec -it Broker_Container_ID sh - 다양한 클라이언트 툴 사용가능 - kafka-topics : Kafka-topics --bootstrap-server kafka1:9092 --list - kafka-configs - kafka-console-consumer : Command line을 통해 Topic에서 Message 읽기가 가능하다. - kafka-console-producer : Command line을 통해 Topic을 만들고 Message생성이 가능하다. - kafka-console..
학습내용Kafka란? : 실시간 데이터를 처리하기 위해 설계된 오픈소스 분산 스트리밍 플랫폼 - 데이터 재생이 가능한 분산 커밋 로그(Distributed Commit Log) - Scalability와 Fault Tolerance를 제공하는 Publish-Subscription메시징 시스템(Producer-Consumer) - High Throughput과 Low Latency 실시간 데이터 처리에 맞게 구현됨 - 분산 아키텍처를 따르기 때문에 Scale Out이란 형태로 스케일 가능 - 서버 추가를 통해 Scalability달성(서버=Broker) - 정해진 보육기한(retention period) 동안 메시지를 저장 Kafka의 주요기능 및 이점 - 스트림 처리 ..
학습내용Nginx란? - 보통 웹서버들의 앞단에 로드밸런서(Load Balancer)로 사용 - 동시에 요청을 로그하는데 사용(HTTP 요청헤더와 응답헤더 내용을 기록) - 보통 이 로그를 logstash등의 툴을 사용하여 GDFS나 Kafka로 푸시한다. Data Drift로 인한 모델 성능 저하 - ML모델에서 가장 중요한것은 훈련 데이터 - 시간이 지나면서 훈련에 사용한 데이터와 실제 환경의 데이터가 다르게 변화. - 이를 Data drift라고 부르며 이를 모니터링하는 것이 중요하다 =>> 주기적으로 ML모델을 다시 빌딩해주는 일이 필요함 ! A/B테스트란? - 온라인 서비스에서 새 기능의 임팩트를 객관적으로 측정하는 방법 - ex) 의료쪽에서 무작위 ..
학습 내용빅데이터 처리의 발전 - 처음에는 배치로 시작 - 처리할 수 있는 데이터의 양이 중요 - 서비스가 고도화되면서 점점 더 실시간 처리 요구가 생기기 시작 - Realtime 처리 vs Semi Realtime 처리 - 동일 데이터 소비가 필요한 케이스 증가 : 다수의 데이터 소비자 등장 처리량(Throughput) vs 지연시간(Latency) - 처리량 : 주어진 단위 시간동안 처리할 수 있는 데이터의 양 - 클수록 처리 할 수 있는 데이터의 양이 큼을 의미한다. - 배치 시스템에서 더 중요(데이터 웨어하우스) - 지연시간 : 데이터를 처리하는데 걸리는시간 - 적을수록 응답시간이 빠름을 의미한다. ..
학습 내용SparkML - 머신러닝 관련 다양한 알고리즘, 유틸리티로 구성된 라이브러리 - Classification, Regression, Clustering, Collaborative Filtering, Dimensionality Reduction 등 - 아직 딥러닝은 지원이 미약하다. - RDD 기반과 데이터프레임 기반의 두 버전이 존재 - spark.mllib vs spark.ml - spark.mllib = RDD기반, spark.ml = 데이터프레임기반 - 항상 spark.ml을 사용할것 ! Spark ML의 장점 - 원스톱 ML 프레임웍! - 데이터프레임과 SparkSQL등을 이용해 전처리 ..