본문 바로가기
CS/머신러닝

[PRML] 기초이론정리1(확률론)

by jaehoonChoi 2023. 7. 2.

1  확률론

기계학습에서 중요한 것은 불확실성이다. 이러한 불확실성을 계량화하기 위한 학문이 확률론이다.

확률론은 정보의 불확실성 속에서 최적의 예측을 시행하는 길을 알려준다.

 

1.1  합의 법칙과 곱의 법칙

확률의 합의 법칙과 곱의 법칙은 기본적으로 숙지하자. 

 

$$ P(X)=\sum_{Y}^{}P(X, Y) $$

$$ P(X,Y)=P(Y|X)P(X) $$

 

확률의 대칭성에 의해, \(P(X,Y)=P(Y,X)\)이므로, 이 식과 곱의 법칙을 이용하면, Bayes Theorem 

 

$$P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}$$

 

을 얻게 된다. 베이즈 정리는 머신러닝 전반에 걸쳐 매우 중요하고 기본적으로 사용된다.

 

 

1.2  확률밀도

이산적인 사건 이외에 연속적인 사건에서도 확률값을 가질 수 있다. 

확률 밀도함수는 다음 조건을 만족해야 한다.

$$p(x)\geqslant 0 $$

$$ \int_{-\infty }^{\infty }p(x)dx=1 $$

여러개의 연속변수 벡터 \(\textbf{x}=[x_1, x_2, ... , x_n]^T\)가 주어진다면, 

다변량 확률밀도 역시 위와 같이 두 조건을 만족하면 된다. 

 

 

1.3 기댓값과 공분산

함수 \(f\)의 평균값을 \(f(x)\)의 기댓값 \(\mathbb{E}[f] \) 라 적는다. 

 

이산분포의 경우,  \( \mathbb{E}[f] = \sum_{x}^{}p(x)f(x) \)로 정의되고, 

 

연속분포의 경우, \( \mathbb{E}[f] = \int_{}^{}p(x)f(x)dx \)  로 정의된다. 

 

조건부 기댓값도 정의할 수 있다. \(x\)의 분포에 대해 \(y\)가 조건부로 걸린다면, 

$$ \mathbb{E}_{x}[f|y]=\sum_{x}^{}p(x|y)f(x) $$

로 정의된다. 확률부분만 조건부확률로 변경해주고 어떤 변수에 대해 기댓값을 구할 것인지 알면 된다.

 

공분산(Covariance)는 매우 중요한데  \(x, y\)가 얼마나 함께 변동하는지를 나타낸 정보이다.

 

$$ \textup{cov}[x, y]=\mathbb{E}[xy]-\mathbb{E}[x]\mathbb{E}[y] $$

 

Q) \(x, y\)가 독립인 경우 공분산은 0이 된다.

$$ \mathbb{E}[x]\mathbb{E}[y]=\sum_{x}^{}xp(x)\sum_{y}^{}yp(y)=\sum_{x}^{}\sum_{y}^{}xyp(xy)=\mathbb{E}_{x,y}[xy] $$

 

 

1.4  베이지안 관점 

Bayesian 관점은 매우 중요하다. 여러 데이터들에 대해 우리의 판단은 수시로 바뀐다. 

이러한 상황들에서 우리는 불확실성을 정량화하는 방법으로 확률을 선택했다. 

 

확률은 임의적으로 선택된 것이 아니다. 여러 학자들이 엄밀한 증명을 통해 확률적 방법과 믿음의 정도를

다루는 공리, 법칙들이 일치한다는 점을 보였고 그 결과 또한 확률의 법칙과 동일했다. 

 

즉, 확률적 해석이 우리의 선택, 믿음의 논리와 일치한다는 것이다. 

 

그 중에서도 새로운 데이터가 주어지면 불확실성을 수정하고 그 결과에 따른 확률적 선택을 내리는 방식을

Baysian 해석이라 한다.  베이즈 정리를 다시 들여다보자.

 

$$ p(\theta |D)=\frac{p(D|\theta )p(\theta )}{p(D)} $$

 

위 식에서, 좌변은 사후확률이라 불리며 데이터 \(D\)를 관측했을 때, 잘 맞을 확률을 나타낸다.

그렇다면 우리의 목표는 사후확률을 최대화하는 것이다. 

 

우변에서 \(p(D|\theta )\) 는 likelihood라고 불리며, 매개변수 \(\theta\)에 대해 데이터가 얼마나 나타날지

확률을 말해준다. 사전확률 \(p(\theta)\)는 데이터 \(D\)를 관측하기 전 변수에 대한 사전정보를 나타낸 것이다.

 

사후확률을 최대화하기 위한 최적의 매개변수 \(\theta\)를 찾기 위해 크게 2가지 방법이 제시된다.

 

MLE(Maximize Likelihood Estimation)은 가능도 \(p(D|\theta )\)를 최대화하는 방식이다. (빈도적 방법론)

 

MAP(Maximize A Posterior)은 \(p(D|\theta )p(\theta ) \)를 최대화하는 방식이다. (베이지안 방법론)

 

베이지안 방법론을 이용하면, 사전확률도 같이 이용할 수 있으며, 수식적으로도 편리한 부분이 많다. 

 

 

1.5 가우시안 분포

다양한 확률분포중 가장 중요하고 널리 쓰이는 정규분포에 대해 알아보자. 

 

정규분포 확률은 다음과 같이 정의된다. 

$$N(x|\mu , \sigma ^2)=\frac{1}{\sqrt{2\pi \sigma ^2}}\textup{exp}(-\frac{(x-\mu )^2}{2\sigma ^2})$$

 

연속변수로 이루어진 \(D\)차원 벡터 \(\textbf{x}\)에 대한 정규분포는 다음과 같다.

$$ N(\textbf{x}|\mu , \Sigma )=\frac{1}{(2\pi )^{D/2}}\frac{1}{|\Sigma |^{1/2}}\textup{exp}(-\frac{1}{2}(\mathbf{x}-\mu )^T\Sigma ^{-1}(\mathbf{x}-\mu )) $$

 

두 식은 매우 자주 사용되므로 잘 숙지하자.

 

관측데이터 \(\textbf{x}\)에서 각 변수 \(x_k\)들이 독립이라면, 벡터 \(\textbf{x}\)에 대한 정규분포확률은

$$ p(x|\mu, \sigma ^2)=\prod_{k=1}^{n}N(x_k|\mu, \sigma^2) $$

가 될 것이다.

 

 

 

2.  차원의 저주

패턴인식의 실제사례에서는 많은 변수들로 구성된 고차원 공간을 다루게 된다.

차원값이 증가함에 따라 계수들은 기하급수적으로 증가한다.

예를 들어 \(M\)차 다항식 모델에 대해 \(D\)개의 입력변수가 있다면, 설정할 수 있는 계수는 상수항부터

\(x_1x_2...x_D\)항까지 \(D^M\)개를 결정해야 한다. 

차원의 저주에 대한 좋은 영상을 소개한다.

(https://www.youtube.com/watch?v=EXHR2-hECRM&t=490s )

 

 

 

 

 

 

 

 

 

 

 

댓글