일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- HTML
- 코딩 테스트
- 슈퍼셋
- PCCP
- 데이터 엔지니어
- Selenium
- 팀 프로젝트
- SQL
- Kafka
- airflow
- Tableau
- VPC
- GCP
- Til
- 데이터 시각화
- Snowflake
- 코테 연습
- cloud platform
- superset
- 코딩테스트
- AWS
- 데브코스
- django
- beuatifulsoup
- Spark
- Today
- Total
목록분류 전체보기 (126)
주니어 데이터 엔지니어 우솨's 개발일지
학습내용Broadcast Variable이란? : 록업 테이블등을 브로드캐스팅하여 셔플링을 막는 방식으로 사용 - 브로드캐스트 조인에서 사용되는 것과 동일한 테크닉 - 대부분 룩업 테이블 (혹은 디멘션 테이블 - 10~20MB)을 Executor로 전송하는데 사용 - 많은 DB에서 스타 스키마 형태로 팩트 테이블과 디멘션 테이블을 분리 - spark.sparkContext.broadcast를 사용 Broadcast Variable : 룩업 테이블(파일)을 UDF로 보내는 방법 - Closure - Serialization이 태스크 단위로 일어남 - UDF안에서 파이썬 데이터 구조를 사용하는 경우 - Broadcast - Serialization이 ..
학습 내용배달시간 예측 해보기import pandas as pdimport numpy as np# 전체 데이터프레임 보기# pd.set_option('display.max_rows', None)# pd.set_option('display.max_columns', None)# pd.set_option('display.width', None)# pd.set_option('display.max_colwidth', None)# 되돌리기# pd.reset_option('all')raw = pd.read_csv('delivery_raw.csv', sep='\t')# "actual_delivery_time"이 없는 값 제외raw_dropna_label = raw.dropna(subset=["actual_deliver..
학습내용1. 선형회귀 : 선형회귀는 주어진 데이터에서 두 변수 간의 관계를 직선으로 모델링하는 통계 기법. - 주된 목적은 독립 변수(입력)와 종속 변수(출력) 사이의 선형 관계를 찾아내는 것이다. - 데이터 포인트를 가장 잘 설명하는 직선을 찾기 위해 최소제곱법을 사용하여 잔차의 제곱합을 최소화한다. - 결과적으로 도출된 직선의 기울기와 절편은 데이터를 설명하는 데 사용된다. - 선형회귀는 예측, 추세 분석, 그리고 변수 간의 관계를 이해하는 데 활용된다. 2. 선형 기저함수 모델 : 입력 데이터를 비선형 변환하여 선형 회귀를 적용하는 모델이다. - 원래의 입력 변수를 더 복잡한 함수로 변환해 선형 모델의 표현력을 높이는 것 - 기저 함수는 다항식, 가우시안, 시그모이드 등 다양한 형태가 될 수 있..
학습내용1. 확률의 정의 - 표본 집합 S: 실험의 결과로 발생하는 모든 결과의 집합 - 확률 P : 집합 S의 부분집합을 실수값에 대응시키는 함수 2. 확률 변수 - 확률 변수 X는 표본의 집합 S의 원소 e를 실수값 X(e) = X에 대응시키는 함수. 3. 분산 - f(x)의 값들이 기댓값으로 부터 흩어져 있는 정도 4. 공분산 - 두 확률 변수 간의 상관 관계를 측정하는 통계 지표로서 두 변수의 값이 함께 변화하는 정도를 나타낸다. - 공분산이 양수라면 두 확률변수는 서로 양의 선형관계이다. - 공분산이 양수라면 두 확률변수는 서로 양의 선형관계이다. - 공분산이 0이면 두 변수 간에 선형 상관 관계가 없음을 의미한다. 5. 정규분포 - 정규분포는 데이터가 평균을 중심으로 좌우 대칭인 종 모양의 ..
학습 내용1. 선형대수란? - 벡터와 행렬을 사용하여 선형 방정식 시스템을 연구하고 해결하는 수학의 한 분야이다. - 벡터 공간, 선형 변환, 고유값과 고유벡터, 행렬 연산 등을 다루며, 수학적 모델링과 데이터 분석에 널리 활용된다. - 머신러닝의 핵심 아이디어가 행렬에 관한 식으로 표현되는 경우가 많기 때문에 탄탄한 기초가 필요하다. 2. 선형대수 기본표기법(Basic Notation) - A∈R^(m×n) 는 m개의 행과 n개의 열을 가진 행렬을 의미한다. - x∈R^(n)는 n개의 원소를 가진 벡터를 의미한다. n차원 벡터는 n개의 행과 1개의 열을 가진 행렬로 생각할 수도 있다. 이것을 열벡터(column vector)로 부르기도 한다. 만약, 명시적으로 행벡터(row vector)를 표현하고자..
학습 내용머신러닝이란? : 기계학습이라는 뜻으로 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘 연구 - 학습 데이터 - 입력벡터들 : X1, X2, ..., Xn - 목표값들 : T1, T2, ..., Tn - 머신러닝 알고리즘의 결과는 목표값을 예측하는 함수y(x) - y(Xn) ~Tn => y(Xn)의 값은 Tn의 값과 비슷하다 - 숫자 인식 등이 가능하다 => array로 나타내어 공백은 0, 어두운색일 수록 큰 숫자를 사용 머신러닝 핵심개념 - 학습단계(training/learning phase) : 함수 y(x)를 학습데이터에 기반해 결정하는 단계 - 테스트 데이터셋 : 모델을 평가하기 위해서 사용하는 별도의 데이터 - 일반화(Generalizatio..