Data Science/데이터 분석 📊

[데이터 분석] 7. 통계분석 Ⅱ: 확률과 분포

SLYK1D 2024. 7. 31. 22:35
728x90
반응형

 

1. 확률

일상에서 우리는 어떤 일이 일어날 가능성에 대해서 "확률은 ~%야" 라고 할 정도로 일어날 일에 대한 가능성이나 믿음의 척도로 사용한다. 실제 사전에서도 어떤 일이 일어날 가능성 또는 개연성으로 정의하고 있다. 이번 장에서는 확률을 수학적으로 어떻게 표현할 수 있는지 알아보자.

1.1 확률표본, 표본 공간 그리고 사건

확률을 수학적으로 표현하기에 앞서, 우리는 사건, 확률표본, 표본공간이라는 용어에 대해서 알아야한다. 앞서 말한데로 확률이라는 것은 어떤 사건이 일어날 가능성이라했다. 여기서 말하는 사건이 어떤 것을 의미하는지, 대상은 누구인지, 사건이 대상에게 어느정도로 영향을 주는 지에 대해 정의가 되어야 비로소 확률을 이야기 할 수 있다. 각각의 용어에 대한 자세한 설명은 다음과 같다.

1.1.1 확률표본 (Sample) & 표본 공간 (Sample Space)

확률표본은 앞장에서 이야기했던 표본과 개념은 유사하지만, 여기서는 풀고자 하는 확률적 문제에서 발생할 수 있는 하나의 현상 또는 선택될 수 있는 하나의 경우를 의미한다. 수식장에서 표현할 때 그리스문자 중 오메가(Ω)를 사용해서 표현한다. 표본이 결정되고, 선택된 현상에 대해 통계적 실험을 진행한다고 가정할 때, 나타날 수 있는 모든 결과들의 집합을 가리켜 표본 공간(Sample Space) 라고 부른다. 쉽게 말해서, 사건에 대한 모든 표본의 집합이라고 볼 수 있다. 또한 표본 공간을 정의한다는 의미가 우리에게 고려하는 범위에 어떤 표본(경우, 현상)이 가능하고 어떤 표본이 가능하고, 어떤 표본이 가능하지 않은가를 정의하는 작업이다.

1.1.2 사건(Event)

우리가 위에서 표본 공간까지 설정을 했고, 통계적 실험을 진행하게 되면 결과가 나오게 되며, 이 중에는 크게 현상이 발생한 경우와 발생하지 않은 경우로 나눠볼 수 있다. 이 때, 우리가 관심있게 봐야할 표본집합이 존재하며, 이를 가리켜 사건(Event) 라고 부른다. 수학적인 기호로는 알파벳 대문자(A, B, C, ...)를 사용해서 표현한다.

 

1.2 확률

그렇다면 본격적으로 확률에 대해서 알아보도록 하자. 앞서 언급했듯이, 사전적으로는 어떤 일이 일어날 가능성 또는 개연성이라고 했지만, 쉽게 말해보자면, 어떤 현상(사건)을 입력으로 넣으면 숫자가 출력값으로 나오는 함수의 일종이라고도 표현할 수 있다. 표본공간의 모든 사건의 집합에 대해서 일어날 가능성의 척도이기 때문이다. 이를 수학적으로 표현하면 다음과 같다.

$$P(A)=\frac{사건 A의 경우의 수}{표본공간(전체집합) 의 경우의 수}$​$

물론, 위의 수식이 만족하려면, 우리가 표본공간(전체집합)에 대한 숫자를 알고 있는, 유한 집합인 경우에는 성립한다. 그리고 그 때의 확률(위의 수식)을 가리켜 균일 확률이라고 부른다. 하지만, 표본집합이 너무 큰 경우라면 어떻게 할 수 있을까? 또, 각 사건에 대한 결과가 동일하지 않다면 어떻게 확률을 구할까? 이를 위해 등장하는 것이 통계적 확률이다. 우선 통계적 확률을 설명하기 앞서, 사건 A에 대한 상대도수를 먼저 정의해보자. N번의 실험동안 사건 A가 발생할 횟수를 n(A) 라고 가정할 때, 이를 상대도수로 표현하면 다음과 같을 것이다.

$$사건 A의 상대도수=\frac{n(A)}{N}$$

만약 위의 실험을 무한히 실행한다면 사건 A가 발생할 확률, 즉 사건 A에 대한 상대도수의 극한으로 확률 표현한 방법이 통계적 확률이다.

$$P(A)=\lim _{N to ∞}^{ }{\frac{n(A)}{N}}$$

한편, 확률에 대한 정의는 직관적이지만, 엄밀하지 못하다는 단점이 존재한다. 이에 대해 러시아의 수학자 콜모고로프는 공리적 방법을 통해 아래와 같은 3가지 특성을 갖는다고 정의했으며, 이를 가리켜 콜모고로프의 공리라고 부른다.

1) 모든 사건에 대해 확률은 실수이고, 0 또는 양수이다.
2) 표본 공간(전체 집합)이라는 사건(부분집합)에 대한 확률은 1이다.
3) 공통 원소가 없는 두 사건(서로 배반인 사건들)의 합집합은 각 사건별 확률의 합과 같다.

1.3 조건부 확률과 독립사건

확률에 관해 이야기를 하게 되면, 조건부 확률과 독립사건에 대해서도 빼놓을 수 없다. 이번 절에서는 이 두 가지에 대해서 설명하겠다. 먼저, 조건부 확률이란, 두 사건 A, B가 있고, 사건 A 가 발생했을 때, 사건 B가 발생할 가능성을 의미한다. 이는 A라는 사건과 B라는 사건간의 연관성을 나타내는 척도라고도 볼 수 있다. 이를 수식으로 표현하면 다음과 같다.

$$P(A|B)=\frac{P(A\cap B)}{P(A)}$$

위의 수식에서 중요한 점은 사건 A 가 발생했을 때가 전제 조건이기에 사건 A의 발생할 확률은 0보다 커야한다. 하지만, 만약 사건 A가 일어난 것과는 별개로 사건 B가 발생한다면 어떻게 될까? 이럴 경우 동시에 발생하는 것이기 때문에 두 사건이 발생할 각각의 확률에 대한 곱과 동일해진다. 따라서 이 때의 조건부 확률은 사건 A의 확률 혹은 사건 B의 확률 자체가 된다.

2. 확률 변수

2.1 확률 변수란?

확률에 대한 이야기를 할 때, 확률 다음으로 많이 다뤄지는 주제이다. 통계학 뿐만 아니라, 머신러닝 및 딥러닝 등 확률을 다루는 분야에 있어서 많이 활용이 되는 내용이기 때문에 반드시 알고 넘어가야하는 주제이며, 잘 모르는 상태에서 모델의 학습을 진행할 경우 엉뚱한 결과가 나올 수도 있기 때문이다.
우선 확률 변수는 말 그대로 확률 현상에 의해서 결과 값이 변하는 수를 의미한다. 여기서 말하는 확률현상이란, 결과값들의 종류는 알지만, 실제로 사건이 발생했을 때 어떤 값이 나오는지 모르는 상황을 의미한다. 예를 들어, 주사위는 1~6까지의 값이 있다는 사실은 안다. 하지만, 주사위를 굴리게 되면 어떤 숫자가 나오는지는 굴려서 나와야 알기 때문에 굴리기 전까지는 모르는 상황을 확률 현상이라고 부른다. 그리고 확률 변수는 이러한 확률 현상에 의해 실수값을 가지는 결과를 만들어 내는 수라고 할 수 있다. 위의 내용까지를 통해 확률 변수를 한마디로 정리해보자면, 아래와 같이 정리할 수 있을 것이다.

일정한 확률을 갖고 일어나는 사건에 수치가 부여된 것
= 정의역이 표본공간(=확률공간)이고, 치역이 실수 값인 함수

한편, 확률 변수에는 표본 공간의 범위가 이산적인지, 연속적인지 즉, 셀 수 있는지 혹은 없는지에 따라 크게 이산확률분포와 연속확률분포로 나눠볼 수 있다. 아래에서 각각에 대한 설명을 좀 더 살펴보자.

2.2 이산확률변수

먼저 이산확률변수에 대해서 살펴보자. 앞서 언급했듯이, 표본 공간의 범위가 유한한 경우에 그에 대한 확률 변수를 의미하며, 사건의 확률이 사건들이 속한 점들의 확률 합으로 표현 가능한 확률변수라고 정의할 수 있다. 쉬운 예시로 동전을 10번 던질 때, 앞면이 나올 확률의 크기와 같이 각 사건이 발생할 확률의 합과 같다고 볼 수 있다. 그리고 각 사건별 확률의 크기를 가리켜, 확률질량함수 라고 부른다. 대표적인 종류로는 베르누이 확률분포, 이상분포, 기하분포, 다항분포, 포아송분포 등이 존재한다.

 

 

2.3 연속확률변수

다음으로 연속확률변수에 대해 알아보자. 앞서 살펴 본 이산확률변수와는 반대로 표본 공간의 범위가 무한한 경우의 확률변수를 의미하며, 사건의 확률이 해당 사건 위에서 0보다 큰 값을 갖는 함수의 면젹으로 표현된다. 그리고 이 때 측정되는 결과값을 가리켜 확률밀도함수라고 부른다. 대표적인 종류로는 정규분포, 균일분포, 지수분포, 카이제곱분포 등이 존재한다.

2.4 기댓값 & 분산

마지막으로 확률변수에서의 기댓값과 분산에 대해서 알아보도록 하자. 확률론에서 기댓값이란, 각 사건이 벌어졌을 때의 이득과 해당 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합산한 결과를 의미한다. 수식으로 표현하자면 다음과 같다.

$$E[X]=\sum _{}^{}xP(x)$$

만약 각 사건이 발생하는 확률이 동일하다면, 전체 사건에 대한 평균이라고 볼 수 있다. 기대값이 사용되는 이유는 특정 사건에 대해서 1번 시행된 결과를 통해 나온 결과가 일반적이라고 볼 수 없기 때문에 여러 시행을 거쳐야하며, 그에 대한 결과들의 평균으로 비교해야하기 때문이다. 한편 기댓값만큼 많이 사용되는 지표가 분산이다. 앞서 본 기댓값을 분포의 평균이라고 하자면, 분산은 데이터가 얼마나 고르게 퍼져있는지, 평균으로부터 얼마나 떨어져 있는지에 대한 지표라고 할 수 있다. 수학적으로 표현하자면 다음과 같다.

$$Var(X)=E[{(x-\mu)}^2]=E[{X}^2]-E{[X]}^2$$

한편, 데이터의 분포가 너무 넓을 경우 이를 분산으로 표현하게 되면 숫자가 크게 나오고 일정하지 않을 가능성이 있다. 이를 위해 분산에 제곱근을 씌워 데이터를 점과 점 사이의 거리로 표현하고자 한 것이 표준편차이다.

$$SD[X]=\sqrt{Var[X]}$$

[참고자료]
 
 
728x90
반응형