본문 바로가기
데브코스

데이터 엔지니어링 69일차 TIL

by 우솨 2024. 7. 4.

학습내용

1. 선형회귀
: 선형회귀는 주어진 데이터에서 두 변수 간의 관계를 직선으로 모델링하는 통계 기법.
- 주된 목적은 독립 변수(입력)와 종속 변수(출력) 사이의 선형 관계를 찾아내는 것이다. 
- 데이터 포인트를 가장 잘 설명하는 직선을 찾기 위해 최소제곱법을 사용하여 잔차의 제곱합을 최소화한다. 
- 결과적으로 도출된 직선의 기울기와 절편은 데이터를 설명하는 데 사용된다.
- 선형회귀는 예측, 추세 분석, 그리고 변수 간의 관계를 이해하는 데 활용된다.

2. 선형 기저함수 모델
: 입력 데이터를 비선형 변환하여 선형 회귀를 적용하는 모델이다.
- 원래의 입력 변수를 더 복잡한 함수로 변환해 선형 모델의 표현력을 높이는 것
- 기저 함수는 다항식, 가우시안, 시그모이드 등 다양한 형태가 될 수 있다.
- 선형 모델이 비선형 데이터 패턴을 포착할 수 있게 한다.
- 최종 모델은 변환된 입력 변수들의 선형 결합으로 표현된다.

3. 가우시안 기저함수
: 입력 데이터를 가우시안 함수로 변환하여 사용하는 기법이다.
- 각 입력 데이터 포인트에 대해 가우시안 함수 값을 계산한다.
- 가우시안 함수는 평균과 분산을 매개변수로 가지며, 국소적인 변화를 잘 포착한다.
- 이를 통해 입력 데이터의 비선형 패턴을 선형 회귀로 모델링할 수 있다.
- 최종 모델은 가우시안 함수로 변환된 입력 변수들의 선형 결합으로 표현된다.

4. 규제화
: 모델의 복잡도를 줄여 과적합을 방지하는 기법이다.
- 비용 함수에 패널티 항을 추가하여 큰 계수를 억제한다.
- 일반적으로 L2 규제(릿지)와 L1 규제(라쏘)가 있다.
- 적절한 규제는 모델의 일반화 성능을 향상시킨다.
- 하이퍼파라미터를 통해 규제의 강도를 조절할 수 있다.

5. Ridge regression
: L2 규제를 적용한 선형 회귀 모델이다.
- 비용 함수에 계수의 제곱합을 패널티로 추가한다.
- 큰 계수를 가진 변수들을 억제하여 모델의 복잡도를 줄인다.
- 규제 강도를 조절하는 하이퍼파라미터 λ가 필요하다.
- 과적합을 방지하고 예측 성능을 향상시킨다.

6. Lasso regression
: L1 규제를 적용한 선형 회귀 모델이다.
- 비용 함수에 계수의 절댓값 합을 패널티로 추가한다.
- 불필요한 변수의 계수를 0으로 만들어 변수 선택이 가능하다.
- 규제 강도를 조절하는 하이퍼파라미터 λ가 필요하다.
- 모델을 단순화하고 해석 가능성을 높인다.