일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 팀 프로젝트
- beuatifulsoup
- 코딩테스트
- SQL
- cloud platform
- GCP
- 데이터 시각화
- 데브코스
- PCCP
- 코딩 테스트
- Snowflake
- VPC
- 코테 연습
- Tableau
- django
- Kafka
- Spark
- Selenium
- 데이터 엔지니어
- AWS
- airflow
- 슈퍼셋
- HTML
- superset
- Til
- Today
- Total
주니어 데이터 엔지니어 우솨's 개발일지
데이터 엔지니어링 66일차 TIL 본문
학습 내용
머신러닝이란?
: 기계학습이라는 뜻으로 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘 연구
- 학습 데이터
- 입력벡터들 : X1, X2, ..., Xn
- 목표값들 : T1, T2, ..., Tn
- 머신러닝 알고리즘의 결과는 목표값을 예측하는 함수y(x)
- y(Xn) ~Tn => y(Xn)의 값은 Tn의 값과 비슷하다
- 숫자 인식 등이 가능하다 => array로 나타내어 공백은 0, 어두운색일 수록 큰 숫자를 사용
머신러닝 핵심개념
- 학습단계(training/learning phase)
: 함수 y(x)를 학습데이터에 기반해 결정하는 단계
- 테스트 데이터셋 : 모델을 평가하기 위해서 사용하는 별도의 데이터
- 일반화(Generalization) : 모델에서 학습에 사용된 데이터가 아닌 이전에 접하지 못한 새로운 데이터에 대해 올바른 예측을 수행하는 역량
- 지도학습(Supervised learning) : 목표값(타겟, 레이블)이 주어진 경우
- 분류(Classification) : 목표값이 이산적인 경우(목표값이 유한개)
- 회귀(Regression) : 목표값이 연속적인 경우(목표값이 무한개)
- 비지도학습(Unsupervised learning) : 목표값(타겟, 레이블)이 없는 경우
- 군집(clustering) : 비슷한 특성들끼리 그룹핑
다항식 곡선 근사(Polynomial Curve Fitting)
- 사인(sine)함수가 데이터 생성
- 학습시 데이터 생성방법은 모른다고 가정
머신러닝에 확률이 필요한 이유
- 확률이론(probability theory) : 예측값의 불확실성을 정량화시켜 표현할 수 있는 수학적인 프레임워크를 제공한다.
- 결정이론(decision theory) : 확률적 표현을 바탕으로 최적의 예측을 수행할 수 있는 방법론을 제공한다.
오차함수(Error Function)
3. E2E란?
(End-to-End 머신러닝 프로젝트)
: 프로젝트를 처음부터 끝까지 (End-to-End) 진행하는 것
1. 큰 그림을 본다 (look at the big picture).
2. 데이터를 구한다 (get the data).
3. 데이터로부터 통찰을 얻기 위해 탐색하고 시각화한다 (discover and visualize the data to gain insights).
4. 머신러닝 알고리즘을 위해 데이터를 준비한다 (prepare the data for Machine Learning algorithms).
5. 모델을 선택하고 훈련시킨다 (select a model and train it).
6. 모델을 상세하게 조정한다 (fine-tune your model).
7. 솔루션을 제시한다 (present your solution).
8. 시스템을 론칭하고 모니터링하고 유지 보수한다 (launch, monitor, and maintain your system).
'데브코스' 카테고리의 다른 글
데이터 엔지니어링 68일차 TIL (1) | 2024.07.03 |
---|---|
데이터 엔지니어링 67일차 TIL (1) | 2024.07.02 |
데이터 엔지니어링 65일차 TIL (0) | 2024.06.30 |
데이터 엔지니어링 64일차 TIL (0) | 2024.06.30 |
데이터 엔지니어링 63일차 TIL (0) | 2024.06.30 |