주니어 데이터 엔지니어 우솨's 개발일지

데이터 엔지니어링 68일차 TIL 본문

데브코스

데이터 엔지니어링 68일차 TIL

우솨 2024. 7. 3. 13:26

학습내용

1. 확률의 정의
- 표본 집합 S: 실험의 결과로 발생하는 모든 결과의 집합
- 확률 P : 집합 S의 부분집합을 실수값에 대응시키는 함수

2. 확률 변수
- 확률 변수 X는 표본의 집합 S의 원소 e를 실수값 X(e) = X에 대응시키는 함수.

3. 분산
- f(x)의 값들이 기댓값으로 부터 흩어져 있는 정도

4. 공분산
- 두 확률 변수 간의 상관 관계를 측정하는 통계 지표로서 두 변수의 값이 함께 변화하는 정도를 나타낸다.
- 공분산이 양수라면 두 확률변수는 서로 양의 선형관계이다.
- 공분산이 양수라면 두 확률변수는 서로 양의 선형관계이다. 
- 공분산이 0이면 두 변수 간에 선형 상관 관계가 없음을 의미한다.

5. 정규분포
- 정규분포는 데이터가 평균을 중심으로 좌우 대칭인 종 모양의 곡선을 따르는 확률 분포이다.
- 평균과 표준 편차에 의해 결정되며, 전체 데이터의 약 68%가 평균에서 표준 편차의 범위 내에 존재한다.
- 정규분포는 자연현상, 시험 점수 등 다양한 분야에서 자주 나타나는 중요한 통계 분포이다.

6. 확률분포
- 머신러닝에 자주 사용되는 확률분포에는 베르누이 분포, 이항 분포, 베타 분포, 다항 분포, 디리클레 분포, 가우시안 분포 등이 있다.
- 데이터를 확률로 모델링이 가능하다.
- 밀도추정 : 관찰데이터가 주어졌을 때 분포함수 p(x)를 찾는것.
        - p(x)를 파라미터화된 분포로 가정하고 데이터로부터 파라미터를 찾는다.
- 확률로 모델링한 다음 새로운 데이터에 대해서 예측할 수 있다.

- 베르누이 분포 (Bernoulli Distribution)
        - 베르누이 분포는 두 가지 결과(성공과 실패)만 가능한 실험의 확률 분포이다.
        - 성공 확률 p와 실패 확률 1−p로 정의된다.
        -  동전 던지기와 같은 이진 결과를 가지는 실험에서 자주 사용.

- 이항 분포 (Binomial Distribution)
        - 이항 분포는 독립적인 베르누이 시행을 여러 번 반복할 때 성공 횟수를 나타내는 분포이다.
        - n번의 시행 중 성공 횟수가 따르는 분포로, 각 시행의 성공 확률은 p이다.
        - 여러 번 동전을 던져 앞면이 나오는 횟수를 구할 때 사용.

-베타 분포 (Beta Distribution)
        - 베타 분포는 0과 1 사이의 값을 가지는 확률 변수의 분포로, 주로 성공 확률 p의 사전 분포로 사용된다.
        - 두 매개변수 α와 β에 의해 모양이 결정된다.
        - 베이즈 통계와 머신러닝에서 이항 분포의 성공 확률에 대한 사전 확률을 나타낼 때 유용하다.

- 다항 분포 (Multinomial Distribution)
        - 다항 분포는 여러 범주 중 하나가 발생하는 실험을 여러 번 수행할 때, 각 범주의 발생 횟수를 나타내는 분포이다.
        - n번의 시행 중 각 범주가 발생할 확률이 주어질 때, 각 범주가 몇 번 발생했는지를 모델링한다.
        - 여러 클래스 중 하나를 선택하는 문제에서 사용되며, 문서 분류와 같은 작업에 유용.

- 디리클레 분포 (Dirichlet Distribution)
        - 디리클레 분포는 다항 분포의 확률 매개변수에 대한 사전 분포이다.
        - 여러 범주에 대한 확률 분포를 모델링하며, 각 범주에 대한 사전 지식이나 믿음을 반영한다.
        - 베이즈 통계에서 다항 분포의 매개변수에 대한 사전 분포로 자주 사용.

- 가우시안 분포 (Gaussian Distribution)
        - 가우시안 분포는 정규 분포라고도 불리며, 데이터가 평균을 중심으로 대칭적으로 분포하는 연속 확률 분포이다.
        - 평균과 표준 편차로 정의되며, 자연 현상과 많은 데이터셋에서 흔히 나타난다.
        - 머신러닝에서 데이터의 특성을 분석하고 모델링하는 데 널리 사용.