본문 바로가기

데브코스65

데이터 엔지니어링 69일차 TIL 학습내용1. 선형회귀 : 선형회귀는 주어진 데이터에서 두 변수 간의 관계를 직선으로 모델링하는 통계 기법. - 주된 목적은 독립 변수(입력)와 종속 변수(출력) 사이의 선형 관계를 찾아내는 것이다.  - 데이터 포인트를 가장 잘 설명하는 직선을 찾기 위해 최소제곱법을 사용하여 잔차의 제곱합을 최소화한다.  - 결과적으로 도출된 직선의 기울기와 절편은 데이터를 설명하는 데 사용된다. - 선형회귀는 예측, 추세 분석, 그리고 변수 간의 관계를 이해하는 데 활용된다. 2. 선형 기저함수 모델 : 입력 데이터를 비선형 변환하여 선형 회귀를 적용하는 모델이다. - 원래의 입력 변수를 더 복잡한 함수로 변환해 선형 모델의 표현력을 높이는 것 - 기저 함수는 다항식, 가우시안, 시그모이드 등 다양한 형태가 될 수 있.. 2024. 7. 4.
데이터 엔지니어링 68일차 TIL 학습내용1. 확률의 정의 - 표본 집합 S: 실험의 결과로 발생하는 모든 결과의 집합 - 확률 P : 집합 S의 부분집합을 실수값에 대응시키는 함수 2. 확률 변수 - 확률 변수 X는 표본의 집합 S의 원소 e를 실수값 X(e) = X에 대응시키는 함수. 3. 분산 - f(x)의 값들이 기댓값으로 부터 흩어져 있는 정도 4. 공분산 - 두 확률 변수 간의 상관 관계를 측정하는 통계 지표로서 두 변수의 값이 함께 변화하는 정도를 나타낸다. - 공분산이 양수라면 두 확률변수는 서로 양의 선형관계이다. - 공분산이 양수라면 두 확률변수는 서로 양의 선형관계이다.  - 공분산이 0이면 두 변수 간에 선형 상관 관계가 없음을 의미한다. 5. 정규분포 - 정규분포는 데이터가 평균을 중심으로 좌우 대칭인 종 모양의 .. 2024. 7. 3.
데이터 엔지니어링 67일차 TIL 학습 내용1. 선형대수란? - 벡터와 행렬을 사용하여 선형 방정식 시스템을 연구하고 해결하는 수학의 한 분야이다.  - 벡터 공간, 선형 변환, 고유값과 고유벡터, 행렬 연산 등을 다루며, 수학적 모델링과 데이터 분석에 널리 활용된다. - 머신러닝의 핵심 아이디어가 행렬에 관한 식으로 표현되는 경우가 많기 때문에 탄탄한 기초가 필요하다. 2. 선형대수 기본표기법(Basic Notation) - A∈R^(m×n) 는 m개의 행과 n개의 열을 가진 행렬을 의미한다. - x∈R^(n)는 n개의 원소를 가진 벡터를 의미한다. n차원 벡터는 n개의 행과 1개의 열을 가진 행렬로 생각할 수도 있다. 이것을 열벡터(column vector)로 부르기도 한다. 만약, 명시적으로 행벡터(row vector)를 표현하고자.. 2024. 7. 2.
데이터 엔지니어링 66일차 TIL 학습 내용머신러닝이란? : 기계학습이라는 뜻으로 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘 연구 - 학습 데이터         - 입력벡터들 : X1, X2, ..., Xn         - 목표값들 : T1, T2, ..., Tn - 머신러닝 알고리즘의 결과는 목표값을 예측하는 함수y(x)         - y(Xn) ~Tn => y(Xn)의 값은 Tn의 값과 비슷하다 - 숫자 인식 등이 가능하다 => array로 나타내어 공백은 0, 어두운색일 수록 큰 숫자를 사용 머신러닝 핵심개념 - 학습단계(training/learning phase)  : 함수 y(x)를 학습데이터에 기반해 결정하는 단계 - 테스트 데이터셋 : 모델을 평가하기 위해서 사용하는 별도의 데이터 - 일반화(Generalizatio.. 2024. 7. 2.
데이터 엔지니어링 65일차 TIL 학습 내용Spark 3.0의 구성  Spark Streaming이란? - 실시간 데이터 스트림 처리를 위한 spark API - Kafka, Kinesis, Flume, TCP 소켓 등의 다양한 소스에서 발생하는 데이터 처리 가능 - Join, Map, Reduce, Window와 같은 고급 함수 사용 가능 Spark Streaming 동작방식 - 데이터를 마이크로 배치로 처리 - 계속해서 위의 과정을 반복(루프) - 이렇게 읽은 데이터를 앞서 읽은 데이터에 머지 - 배치마다 데이터 위치 관리(시작과 끝) - Fault Tolerance와 데이터 재처리 관리(실패시) Spark Streaming의 내부 동작 - Spark Streaming은 실시간 입력 데이터 스트림을 배치로 나눈다음 - Spark En.. 2024. 6. 30.
데이터 엔지니어링 64일차 TIL 학습 내용kafka CLI Tool 접근 방법 - docker ps로 Broker의 Container ID 파악 - 해당 컨테이너로 로그인  => docker exec -it Broker_Container_ID sh - 다양한 클라이언트 툴 사용가능 - kafka-topics : Kafka-topics --bootstrap-server kafka1:9092 --list - kafka-configs - kafka-console-consumer : Command line을 통해 Topic에서 Message 읽기가 가능하다.          - kafka-console-producer : Command line을 통해 Topic을 만들고 Message생성이 가능하다.         - kafka-console.. 2024. 6. 30.