Certification_Note/사조사 2급 - 필기

[사조사2급필기]#02.사회통계- 확률과 확률분포

앵우 2021. 4. 21. 21:54

확률 및 확률변수

  • 확률

- 확률의 정의

  1. 고전적 방법

    어떤 실험의 가능한 결과가 모두 n가지이고, 각 결과가 나타날 가능성이 모두 동일하고, 서로 중복되지 않는다고 할 때 사상 A에 속하는 결과가 a가지이면 사건 A의 확률은 a / n으로 정하는 법

  1. 경험적 확률(상대도수에 의한 방법)

    충분히 많은 횟수의 반복 시행에서 어떤 사상의 확률로 정하는 방법.

    경험적인 결과에 기초를 두어 정하는 확률을 흔히 경험적 확률이라고 한다.


- 표본공간과 사상

표본공간:

한 실험에서 나타날 수 있는 가능한 모든 결과의 집합 S이다. 즉, 시행에 의하여 일어날 수 있는 가능한 모든 결과로 된 집합을 말한다.

사상:

표본공간의 부분집합을 의미한다.

공사상: 표본공간의 어떤 원소도 갖고 있지 않은 사상이다.

여사상: 사상 A가 일어나지 않을 사상으로 A여집합으로 나타낸다.

배반사상: A와 B 두 사상이 동시에 일어날 수 없는 사상이다. (A와B의 교집합 X)

독립사상: A와 B 두 사상이 서로 영향을 미치지 않으면 두 사상 A와 B는 독립이다.

독립: P(AB)=P(A)P(B)P(A \cap B) = P(A)P(B)


- 조건부 확률

한 사건이 일어날 것을 전제로 다른 사건이 일어날 확률에 관한 것으로 일반적으로

P(AB)P(BA) P(A\mid B) \neq P(B\mid A) 

조건부확률에서는 두 변인이 상호독립인지가 매우 중요한 포인트이다.

  • 순열과 조합

- 순열

n개의 원소로 된 집합으로부터 한 번에 x개의 원소를 선택하여 이들 간에 순서를 정하여 늘어놓는 방법을 순열이라고 한다.

- 조합

n개의 원소로 된 집합으로부터 한 번에 x개의 원소를 순서에 관계없이 비복원으로 선택하는 방법을 조합이라고 한다.

- 중복조합 → 은근히 헷갈리는 단원

서로 다른 m개 중에서 중복을 허락하여 k개를 선택하는 조합의 수

  • 확률변수

확률변수는 어떤 실험의 단순 사상들에 각각 하나의 숫자를 부여한 것이다. 또한 확률변수는 그것이 가지는 숫자들의 성질에 따라 이산확률변수와 연속확률변수로 분류할 수 있다.

- 이산확률변수

확률변수가 어떤 구간 내의 특정한 값만을 취하는 경우를 말한다.

- 연속확률변수

어떤 구간 내의 임의의 값을 취할 확률을 말한다.

1)기댓값

평균과 같은 것으로 확률변수가 취할 수 있는 각 값에 해당하는 확률을 곱하여 모두 더하는 것이다.

실험을 지속적으로 반복했을 때 평균적으로 기대할 수 있는 값으로 확률변수의 중심화 경향치를 나타내는 특성치를 말한다.

E(X)=[xp(x)]E(X) = \sum [x * p(x)]


2)분산

확률변수의 산포도를 나타내는 특성치가 분산과 표준편차이다.

Var(X)=x2p(x)[E(x)]2Var(X) = \sum x^p(x) - [E(x)]^

Var(X)=E(x2)[E(x)2]Var(X) = E(x^) - [E(x)^]

- 분산의 성질

Var(X + Y) = Var(X) + Var(Y) + 2Cov(X,Y) <Cov는 공분산을 의미한다>

Var(X - Y) = Var(X) + Var(Y) - 2Cov(X,Y)

확률분포

  • 확률분포 일반

확률변수의 성격을 나타내는 것으로, 표본공간에 나타나는 모든 값들과 그 값에 대응하는 확률을 동시에 표시한 것을 말한다.

- 이산확률분포

확률변수가 이산변수인 경우로 이항분포, 포아송분포, 초기하분포, 기하분포, 다항분포

- 연속확률분포

확률변수가 소수점의 값을 포함하는 실수영역으로, 정규분포, 표준정규분포, T,F,카이제곱,지수분포

  • 이산확률분포

1)이항분포

확률실험에서 나타날 수 있는 기본결과가 두 가지뿐일 경우이다.

어떤 시행에서 사건 A가 일어날 확률을 p, 사건 A가 일어나지 않을 확률을 q(q= 1-p)라 하고 이 시행을 독립적으로 n회 반복할 때, 그 중에서 x회만 A가 일어날 확률은

B(n,p) = nxCpxqnx_^\textrmp^q^

- p가 1/2에 가까워짐에 따라 그래프는 좌우대칭의 산 모양 곡선이 된다.

- p < 0.1이고 n > 50일 때는 포아송분포에 근사된다.

- 이항분포의 정규근사치

np ≥5 또는 n(1-p) ≥ 5일 경우 평균이 np이고 분산이 np(1-p)인 정규분포와 비슷한 모양이 된다.

시행횟수 n이 클 때에는 정규분포를 이용하여 이항확률의 근사치를 구할수가 있다.


2)베르누이 시행

각 시행의 결과는 상호 배타적인 두 사건으로 구분된다. 즉, 성공 또는 실패이다.

각 시행은 서로 독립적이다.

베르누이 시행을 n번 독립적으로 반복시행했을 때의 확률변수 X를 성공(X=1) 또는 실패(X=0)이라 하면 X의 분포는 이항분포를 따르며 확률밀도함수 f(x)는 다음과 같다.

f(x)=px(1p)nx=pxqnxf(x) = p^(1-p)^ = p^q^


3)포아송분포

일반적으로 단위시간, 단위면적 또는 단위공간 내에서 발생하는 어떤 사건의 횟수를 확률변수 X라 하면, 확률밀도 X는 람다값을 모수로 갖는 포아송분포를 따른다고 한다.

f(x)=eΛΛxx!f(x) = \frac\Lambda^}

- 포아송분포의 성립조건

독립성:

발생하는 사건의 횟수는 서로 중복되지 않는다.

비례성:

사건이 한번 발생할 확률은 시간길이 또는 면적에 비례한다.

비집락성:

짧은 시간 동안 또는 작은 영역 내에서 사건이 두 번 이상 발생할 확률은 매우 작기 때문에 무시할 수 있다.


4)기하분포

단 한번의 성공을 위해 실패를 거듭해야 하는 경우 기하분포를 이용한다.

f(x)=pqx1,x=1,2,3...q=1pf(x) = pq^, x= 1,2,3... q=1-p

E(X) = 1/ P , Var(X) = q / p^2

  • 연속확률분포

1)정규분포

표본을 통한 통계적 측정 및 가설검증이론의 기본, 여러가지 다른 분포에 대해서 근사값을 제공

특징)

평균과 표준편차에 의해 그 위치와 모양이 결정된다.

첨도는 3이며, 왜도는 0이다. cf)왜도 - 비대칭 정도, 첨도 - 분포의 중심이 얼마나 뾰족한지.

산술평균(Xˉ\bar) = 중위수(MeM_) = 최빈값(MoM_)

정규분포곡선은 x축과 맞닿지 않으므로 확률변수가 취할 수 있는 값의 범위는 무한대이다.

이항분포의 확률 근사치를 계산하는데 매우 유용하다.

개별치의 확률분포가 정규분포가 아니더라도, 표본이 커질수록 그 분포는 정규분포에 가까워진다.


2)표준정규분포

다른 평균과 표준편차를 가진 정규분포를 비교하기 위해서는 표준화를 해주어야 한다.

- 표준화(Standarization)

평균이 0이고, 표준편차가 1이 되도록 해주는 작업이다.

Z=Xuσ, Z N(0,1)Z = \frac{\sigma},  Z\sim  N(0,1)


3)T-분포

자유도에 따라 모양이 변하며, 0을 중심으로 하는 좌우대칭형, 자유도가 무한대일 경우에는 표준정규분포에 근사한다.

- 특징

평균은 0이고, 평균을 중심으로 좌우대칭이다.

일반적으로 분산은 1보다 크나, 표본수가 커질수록 1에 접근한다.

자유도에 따라 제각기 다른 모형이며, 자유도가 클수록 중심부가 더 솟은 모양이 된다.

정규분포보다 꼬리가 두꺼우며 첨도는 3보다 크다.

표본의 크기 n이 30보다 작을 때 사용

모평균, 모평균의 차 또는 회귀계수의 추정&검정에 주로 사용된다.


4)F-분포

확률변수 X가 자유도(m,n)인 F-분포를 따를 때 다음과 같이 표현된다.

- 특징

왼쪽으로 비스듬히 기울어져 있지만 그 정도는 자유도가 증가함에 따라 대칭성에 가까워진다.

항상 양의 값을 가지며 오른쪽 긴 꼬리 비대칭분포 형태를 이루고 있다.

표본분산과 모분산과의 관계를 이용하여 모분산비에 대한 추론을 하는 데 사용한다.

두 집단의 분산동질성 검정에 사용된다.

확률변수 X가 F(m,n)을 따를 때 1/X 분포는 F(n,m)을 따른다.


5)카이제곱 분포

자유도의 크기에 따라 분포의 모양이 변하고, 자유도가 커지면 대칭에 가까워지는 분포이다.

- 특징

왼쪽으로 기울어진 연속형 분포이며 자유도가 커질수록 오른쪽으로 폭넓게 기울어지는 모양을 나타내며 정규분포에 근접한다.

Z~N(0,1)의 제곱 Z2Z^2는 자유도가 1인 카이제곱분포를 따르며,

자유도가 N인 카이제곱분포의 평균은 n이며, 분산은 2n이다.

모분산이 특정한 값을 갖는지 여부를 검정하는데 사용되며 → 독립성 검정 & 적합성 검정에 사용.

  • 표본분포와 중심극한정리

- 표본분포

모집단으로부터 채택된 일정한 크기의 표본들을 대상으로 분석한 결과 타나난 통계량들의 분포

가) 모집단분포가 정규분포가 아닐 때 표본평균의 분포


모집단의 분포가 정규분포가 아닐 경우 표본평균 Xˉ\bar가 정규분포를 따른다고 할 수 없다.

하지만, 표본의 크기가 충분힐 클 때는 Xˉ\bar의 분포는 정규분포로 볼 수 있다. → 중심극한정리

cf)중심극한정리(Central limit theorem)

표본의 크기가 n≥30이면 대표본으로 간주하고 모집단의 분포와 관계없이 표본평균 Xˉ\bar의 분포는 N(u,σ2n) N(u,\frac{\sigma ^}) 정규분포에 근사한다.

나) 모집단분포가 정규분포 & 무한모집단(복원추출)에 의한 표본평균의 분포


모집단분포가 정규분포를 따를 때, 표본평균의 분포도 정규분포를 따른다.

N(u,σ2n)N(u,\frac{\sigma ^})

표본평균 Xˉ\bar를 표준화시킨 표준화 확률변수 Z는 표준정규분포 N(0,1)을 따른다.

Z=(ˉX)uσ/nZ = \frac{ \bar(X)-u}{\sigma / \sqrt}

- 표본분포의 평균

선택 가능한 모든 표본들로부터 계산된 평균들의 확률분포를 말한다.

표본평균들의 표본분포의 전체 평균은 모집단의 평균과 같다.

표본평균들의 표본분포는 정규분포를 이룬다.

  • 체비세프 부등식

평균과 분산의 정보를 이용하여 확률추정 → 확률분포가 주어지지 않은 상황에서 확률을 추정

P(Xukσ)11k2P(\left | X-u \right | \leq k\sigma) \geq 1- \frac

표본의 평균으로 모평균이 속해있는 구간을 추정할 때 확률변수의 값이 평균으로부터 표준편차의 일정 상수배 이상 떨어진 확률의 상한값 또는 하한값을 제시해준다.