[사조사2급필기]#02.사회통계- 확률과 확률분포
확률 및 확률변수
- 확률
- 확률의 정의
- 고전적 방법
어떤 실험의 가능한 결과가 모두 n가지이고, 각 결과가 나타날 가능성이 모두 동일하고, 서로 중복되지 않는다고 할 때 사상 A에 속하는 결과가 a가지이면 사건 A의 확률은 a / n으로 정하는 법
- 경험적 확률(상대도수에 의한 방법)
충분히 많은 횟수의 반복 시행에서 어떤 사상의 확률로 정하는 방법.
경험적인 결과에 기초를 두어 정하는 확률을 흔히 경험적 확률이라고 한다.
- 표본공간과 사상
표본공간:
한 실험에서 나타날 수 있는 가능한 모든 결과의 집합 S이다. 즉, 시행에 의하여 일어날 수 있는 가능한 모든 결과로 된 집합을 말한다.
사상:
표본공간의 부분집합을 의미한다.
공사상: 표본공간의 어떤 원소도 갖고 있지 않은 사상이다.
여사상: 사상 A가 일어나지 않을 사상으로 A여집합으로 나타낸다.
배반사상: A와 B 두 사상이 동시에 일어날 수 없는 사상이다. (A와B의 교집합 X)
독립사상: A와 B 두 사상이 서로 영향을 미치지 않으면 두 사상 A와 B는 독립이다.
독립:
- 조건부 확률
한 사건이 일어날 것을 전제로 다른 사건이 일어날 확률에 관한 것으로 일반적으로
조건부확률에서는 두 변인이 상호독립인지가 매우 중요한 포인트이다.
- 순열과 조합
- 순열
n개의 원소로 된 집합으로부터 한 번에 x개의 원소를 선택하여 이들 간에 순서를 정하여 늘어놓는 방법을 순열이라고 한다.
- 조합
n개의 원소로 된 집합으로부터 한 번에 x개의 원소를 순서에 관계없이 비복원으로 선택하는 방법을 조합이라고 한다.
- 중복조합 → 은근히 헷갈리는 단원
서로 다른 m개 중에서 중복을 허락하여 k개를 선택하는 조합의 수
- 확률변수
확률변수는 어떤 실험의 단순 사상들에 각각 하나의 숫자를 부여한 것이다. 또한 확률변수는 그것이 가지는 숫자들의 성질에 따라 이산확률변수와 연속확률변수로 분류할 수 있다.
- 이산확률변수
확률변수가 어떤 구간 내의 특정한 값만을 취하는 경우를 말한다.
- 연속확률변수
어떤 구간 내의 임의의 값을 취할 확률을 말한다.
1)기댓값
평균과 같은 것으로 확률변수가 취할 수 있는 각 값에 해당하는 확률을 곱하여 모두 더하는 것이다.
실험을 지속적으로 반복했을 때 평균적으로 기대할 수 있는 값으로 확률변수의 중심화 경향치를 나타내는 특성치를 말한다.
2)분산
확률변수의 산포도를 나타내는 특성치가 분산과 표준편차이다.
- 분산의 성질
Var(X + Y) = Var(X) + Var(Y) + 2Cov(X,Y) <Cov는 공분산을 의미한다>
Var(X - Y) = Var(X) + Var(Y) - 2Cov(X,Y)
확률분포
- 확률분포 일반
확률변수의 성격을 나타내는 것으로, 표본공간에 나타나는 모든 값들과 그 값에 대응하는 확률을 동시에 표시한 것을 말한다.
- 이산확률분포
확률변수가 이산변수인 경우로 이항분포, 포아송분포, 초기하분포, 기하분포, 다항분포
- 연속확률분포
확률변수가 소수점의 값을 포함하는 실수영역으로, 정규분포, 표준정규분포, T,F,카이제곱,지수분포
- 이산확률분포
1)이항분포
확률실험에서 나타날 수 있는 기본결과가 두 가지뿐일 경우이다.
어떤 시행에서 사건 A가 일어날 확률을 p, 사건 A가 일어나지 않을 확률을 q(q= 1-p)라 하고 이 시행을 독립적으로 n회 반복할 때, 그 중에서 x회만 A가 일어날 확률은
B(n,p) =
- p가 1/2에 가까워짐에 따라 그래프는 좌우대칭의 산 모양 곡선이 된다.
- p < 0.1이고 n > 50일 때는 포아송분포에 근사된다.
- 이항분포의 정규근사치
np ≥5 또는 n(1-p) ≥ 5일 경우 평균이 np이고 분산이 np(1-p)인 정규분포와 비슷한 모양이 된다.
시행횟수 n이 클 때에는 정규분포를 이용하여 이항확률의 근사치를 구할수가 있다.
2)베르누이 시행
각 시행의 결과는 상호 배타적인 두 사건으로 구분된다. 즉, 성공 또는 실패이다.
각 시행은 서로 독립적이다.
베르누이 시행을 n번 독립적으로 반복시행했을 때의 확률변수 X를 성공(X=1) 또는 실패(X=0)이라 하면 X의 분포는 이항분포를 따르며 확률밀도함수 f(x)는 다음과 같다.
3)포아송분포
일반적으로 단위시간, 단위면적 또는 단위공간 내에서 발생하는 어떤 사건의 횟수를 확률변수 X라 하면, 확률밀도 X는 람다값을 모수로 갖는 포아송분포를 따른다고 한다.
- 포아송분포의 성립조건
독립성:
발생하는 사건의 횟수는 서로 중복되지 않는다.
비례성:
사건이 한번 발생할 확률은 시간길이 또는 면적에 비례한다.
비집락성:
짧은 시간 동안 또는 작은 영역 내에서 사건이 두 번 이상 발생할 확률은 매우 작기 때문에 무시할 수 있다.
4)기하분포
단 한번의 성공을 위해 실패를 거듭해야 하는 경우 기하분포를 이용한다.
E(X) = 1/ P , Var(X) = q / p^2
- 연속확률분포
1)정규분포
표본을 통한 통계적 측정 및 가설검증이론의 기본, 여러가지 다른 분포에 대해서 근사값을 제공
특징)
평균과 표준편차에 의해 그 위치와 모양이 결정된다.
첨도는 3이며, 왜도는 0이다. cf)왜도 - 비대칭 정도, 첨도 - 분포의 중심이 얼마나 뾰족한지.
산술평균() = 중위수() = 최빈값()
정규분포곡선은 x축과 맞닿지 않으므로 확률변수가 취할 수 있는 값의 범위는 무한대이다.
이항분포의 확률 근사치를 계산하는데 매우 유용하다.
개별치의 확률분포가 정규분포가 아니더라도, 표본이 커질수록 그 분포는 정규분포에 가까워진다.
2)표준정규분포
다른 평균과 표준편차를 가진 정규분포를 비교하기 위해서는 표준화를 해주어야 한다.
- 표준화(Standarization)
평균이 0이고, 표준편차가 1이 되도록 해주는 작업이다.
3)T-분포
자유도에 따라 모양이 변하며, 0을 중심으로 하는 좌우대칭형, 자유도가 무한대일 경우에는 표준정규분포에 근사한다.
- 특징
평균은 0이고, 평균을 중심으로 좌우대칭이다.
일반적으로 분산은 1보다 크나, 표본수가 커질수록 1에 접근한다.
자유도에 따라 제각기 다른 모형이며, 자유도가 클수록 중심부가 더 솟은 모양이 된다.
정규분포보다 꼬리가 두꺼우며 첨도는 3보다 크다.
표본의 크기 n이 30보다 작을 때 사용
모평균, 모평균의 차 또는 회귀계수의 추정&검정에 주로 사용된다.
4)F-분포
확률변수 X가 자유도(m,n)인 F-분포를 따를 때 다음과 같이 표현된다.
- 특징
왼쪽으로 비스듬히 기울어져 있지만 그 정도는 자유도가 증가함에 따라 대칭성에 가까워진다.
항상 양의 값을 가지며 오른쪽 긴 꼬리 비대칭분포 형태를 이루고 있다.
표본분산과 모분산과의 관계를 이용하여 모분산비에 대한 추론을 하는 데 사용한다.
두 집단의 분산동질성 검정에 사용된다.
확률변수 X가 F(m,n)을 따를 때 1/X 분포는 F(n,m)을 따른다.
5)카이제곱 분포
자유도의 크기에 따라 분포의 모양이 변하고, 자유도가 커지면 대칭에 가까워지는 분포이다.
- 특징
왼쪽으로 기울어진 연속형 분포이며 자유도가 커질수록 오른쪽으로 폭넓게 기울어지는 모양을 나타내며 정규분포에 근접한다.
Z~N(0,1)의 제곱 는 자유도가 1인 카이제곱분포를 따르며,
자유도가 N인 카이제곱분포의 평균은 n이며, 분산은 2n이다.
모분산이 특정한 값을 갖는지 여부를 검정하는데 사용되며 → 독립성 검정 & 적합성 검정에 사용.
- 표본분포와 중심극한정리
- 표본분포
모집단으로부터 채택된 일정한 크기의 표본들을 대상으로 분석한 결과 타나난 통계량들의 분포
가) 모집단분포가 정규분포가 아닐 때 표본평균의 분포
모집단의 분포가 정규분포가 아닐 경우 표본평균 가 정규분포를 따른다고 할 수 없다.
하지만, 표본의 크기가 충분힐 클 때는 의 분포는 정규분포로 볼 수 있다. → 중심극한정리
cf)중심극한정리(Central limit theorem)
표본의 크기가 n≥30이면 대표본으로 간주하고 모집단의 분포와 관계없이 표본평균 의 분포는 정규분포에 근사한다.
나) 모집단분포가 정규분포 & 무한모집단(복원추출)에 의한 표본평균의 분포
모집단분포가 정규분포를 따를 때, 표본평균의 분포도 정규분포를 따른다.
표본평균 를 표준화시킨 표준화 확률변수 Z는 표준정규분포 N(0,1)을 따른다.
- 표본분포의 평균
선택 가능한 모든 표본들로부터 계산된 평균들의 확률분포를 말한다.
표본평균들의 표본분포의 전체 평균은 모집단의 평균과 같다.
표본평균들의 표본분포는 정규분포를 이룬다.
- 체비세프 부등식
평균과 분산의 정보를 이용하여 확률추정 → 확률분포가 주어지지 않은 상황에서 확률을 추정
표본의 평균으로 모평균이 속해있는 구간을 추정할 때 확률변수의 값이 평균으로부터 표준편차의 일정 상수배 이상 떨어진 확률의 상한값 또는 하한값을 제시해준다.
Uploaded by Notion2Tistory v1.1.0