본문으로 바로가기

확률 변수 (Random Variable)

category Math/Probability & Statistics 2021. 2. 15. 12:07

확률 변수

1) 정의

    - 표본공간에 있는 모든 원소를 실수에 대응하는 함수

$$Real numbers = f(Elements of the sample space)$$

 

2) 이산형 확률변수 (Discrete random variables)

    - 확률변수의 아웃풋 값이 유한하게 셀 수 있는 숫자

    - 코로나 확진자 수

    - 학교 재학생 수

 

3) 연속형 확률변수 (Continuous random variables)

    - 확률변수의 아웃풋 값이 연속적인 (셀 수 없는) 숫자

    - 시도별 연간 소득

    - 1학년 학생들의 키


확률함수 (Probability function)

1) 정의

    - 확률변수로 정의된 실수가 나올 확률

$$p = f(Real Number)$$


Probability mass function (pmf; 확률질량함수)

1) 정의

    - 확률변수가 discrete 일 때의 확률함수

$$p(x) = P[X = x]$$

    - pmf 값들은 확률이다.

    - p(x)값은 모든 x에 대해 0과 1 사이이고 이를 모두 더하면 1이 나온다

교수님 슬라이드 예시

2) Expectation of discrete random variable (기대값)

$$E[X] = \sum_{a}^{}x_{i}f_{X}(x_{i})$$

    - 산술평균 (동일한 가중치 부여 했을 때의 평균; 일반적으로 평균 구하는 경우)과 다르게 가중평균이다.

    i.e. flip 2 coins, X = number of heads -> p(0) = 1/4, p(1) = 1/2, p(2) = 1/4

         E[X] = (0)(1/4) + (1)(1/2) + (2)(1/4) = 1

    - c가 constant value일 때, E[c]의 값

$$E[c] = \sum_{}^{}c \cdot p(x) = c \sum_{}^{} p(x) = c \cdot 1 = c$$

 

3) Variance (분산)

$$V(X) = E[(X - E[X])^2]$$

$$E(X^2) - {E(X)}^2$$

    - 확률 변수 X와 기대값 X의 차의 제곱 값의 기대값

    - 평균을 기점으로 기대값들이 얼마나 떨어져 있는지 제곱값으로 나타낸 것이다.

 

4) Standard deviation (표준편차)

$$SD[X] = \sqrt{V[X]}$$


Probability density function (pdf; 확률밀도함수)

1) 정의

    - 확률변수가 continuous 일 때의 확률함수

    - 이산형의 확률분포를 계산할 때, summation (시그마)를 사용했다면 연속형은 integral 사용한다.

    - 확률은 f(x)곡선에서 구간 안의 면적이다.

$$P(a<=X<=b) = \int_{a}^{b}f(x)dx$$

 

2) 특성

    - 0보다 크다

$$f(x) >= 0, \forall x$$

    - 모든 구간의 합은 1이다.

$$P(X \in (-\infty, \infty))\int_{-\infty}^{\infty}f(x)dx = 1$$

    - 특정 지점에서의 값은 0이다.

$$$P(X=a) = P[a<= X <= a] = \int_{a}^{a}f(x)dx = 0$

    - 위의 특성에서 특정 지점의 근사값을 구하기 위해 매우 작은 epsilon 구간의 값을 구한다.

$$P(a-\frac{\varepsilon}{2} <= X <= a + \frac{\varepsilon}{2}) = \int_{a-\frac{\varepsilon}{2}}^{a+\frac{\varepsilon}{2}}f(x) dx \approx \varepsilon f(a)$$

    - 등호는 해당 지점에서의 값이 0이기 때문에 의미가 없다.

 

3) 기대값

    - 확률 변수 X에 대한 기대값

$$E[X] = \int_{}^{}xf(x)dx$$

    - 확률 변수 X에 대한 함수 g(X)에 대한 기대값

$$E[g(X)] = \int_{-\infty}^{\infty} g(x)f(x)dx$$

 

4) 분산

$$V[X] = E[(X-\mu)^{2}]$$

$$V[X] = E[X^{2}] - (E[X])^{2}$$

 

Cumulative density function (cdf; 누적분포함수)

1) 정의

$$F(x) = P[X <= x] = \int_{-\infty}^{x}f(t)dt\;\;\;\;\; f(t) = pdf$$

$$\frac{d}{dx}F(x) = f(x)$$

 

2) 특성

$$0<= F(x) <= 1, \; \forall x$$

$$If b >= a, then F(b) >= F(a)$$

$$F(b)- F(a) = P[a<= X <= b]$$

 

확률분포 (Probability distribution)

1) 정의

    - 확률함수로 부터 생성된 확률 값들의 패턴 (매우 다양함)

    - 왼쪽이 이산형, 오른쪽이 연속형 확률분포이다.

교수님 슬라이드


위의 내용은 고려대학교 김성범 교수님의 유튜브 강의를 정리한 것입니다.

www.youtube.com/watch?v=GqDy0sInGJ0