Certification_Note/사조사 2급 - 필기

[사조사2급필기]#01.사회통계-기술통계

앵우 2021. 4. 16. 14:32

대푯값(자료 전체를 대표하는 값)

- 분포의 중심위치를 나타내는 측정치이다.

- 대푯값은 분포의 중앙 또는 도수의 집중점과 반드시 일치하지는 않는다.

- 관찰된 자료들이 어느 곳에 가장 많이 모여있는가를 나타내는 것 → 집중화 경향

집중화 경향을 나타내는 수치 = 산출평균, 중위수, 최빈값

계산적인 대푯값: 산술평균, 기하평균, 조화평균, 평방평균

위치적인 대푯값: 중위수, 최빈수, 사분위수, 백분위수

  • 계산적인 대푯값

표본을 가지고 산출하는 것이 아닌, 변수 전체를 사용하여 계산해 내는 값.

한 값이라도 변하게되면 대푯값에 영향을 준다.

극단적인 변수에 의해 영향을 받기 때문에 추상적인 대푯값이라고도 한다.

평균은 이상치에 영향을 많이 받는다.

1) 산술평균(X바)

n개의 수가 있을 때, 이들의 합을 개수로 나눈 것. 우리가 일반적으로 생각하는 평균

1nxi=x1+x2+x3+xnn\frac\sum _{}xi = \frac

2) 기하평균 (G)

변화율이나 비율의 평균을 구할 떄 이용하는 수치로서 모든 측정치를 곱하여 측정치의 수만큼 제곱근을 구한 것이다.

- 극단적인 변수의 값에 영향을 받지만 산술평균보다는 적게 받는다.

- 인구변동률, 물가변동률, 경제성장률과 같은 비율의 대푯값 산정에 많이 쓰인다.

G = x1×x2×x3×xnn \sqrt[n]

3) 조화평균 (H)

n개의 양수에 대하여 그 역수들을 산술평균한 것의 역수를 말한다.

- 추상적인 대푯값으로 극단적인 값의 영향을 받으며, 역수를 갖는 변량 외에는 거의 사용 x

- 단위당 평균 산출에 이용한다.

H = n1xi\frac{\sum \frac}

  • 위치적인 대푯값

1)중위수(Me)

통계집단의 측정값을 크기순으로 배열했을 때 중앙에 위치한 수치를 말한다.

N이 홀수일 경우에는 (n+1)/2번째값이 되고, N이 짝수인 경우에는 (n+1)/2와 n/2의 평균값이 된다.

- 극단적인 값의 영향을 받지 않으며, 중위수에 대한 편차의 절대치의 합은 다른 어떤 수에 대한 편차의 절대치의 합보다 작다.

- 분포모양이 대칭일 경우에는 중앙값과 산술평균은 일치한다.

- 분포모양이 비대칭일 경우에는 산술평균이나 최빈수보다 자료의 대표성을 높일 수 있다.

- 경기변동을 산출할 때 사용한다. 제 2사분위수와 동일한 측도이다.


2)최빈수(Mo)

변량 X의 측정값 중에서 출현도수가 가장 많은 값을 의미한다.

중위수와 마찬가지로 자료 가운데 극단적인 이상점에 영향을 받지 않는다.

- 분포모양이 좌우대칭일 때에는 최빈수가 대체로 대표성이 있으며, 최빈수는 전형적인 값이므로 가장 납득하기 쉬운 대푯값이다.

- 가장 쉽게 알아낼 수 있는 대푯값이며, 같은 관측치를 나타내는 관찰대상의 규모 등을 파악하고자 할 때 유용한 대푯값이다.

- 명목수준의 측정에서 사용하는 통계기법이다.


3)산술평균(Xˉ\bar), 중위수(Me), 최빈수(Mo)의 관계

좌우대칭 분포일 경우: Xˉ\bar = Me(중위수) = Mo(최빈수)

좌측 비대칭 분포일 경우: Xˉ\bar > Me(중위수) > Mo(최빈수)

우측 비대칭 분포일 경우: Xˉ\bar < Me(중위수) < Mo(최빈수)

산포도(분산도)

자료의 분산 상황을 나타내는 수치로 변량 x와 그 분포 F(x)가 주어졌을 때, 그 분포의 중심적 위치의 척도를 m이라고 할 때, F(x)의 m 주위에 흩어져 있는 정도를 나타내는 기술적 지표이다.

- '분산도'라고도 하며, 크기가 고르지 않은 집단의 특징은 평균 외에 자료의 값이 흩어져 있는 정도를 조사하면 더욱 뚜렷해진다.

- 산포도가 클수록 그 분포의 흩어진 폭이 넓고, 산포도가 작을수록 분포의 흩어진 폭이 좁다.

절대적 분포의 산포도: 범위, 사분위수 범위, 평균편차, 사분편차, 분산&표준편차

상대적 분포의 산포도: 변이계수(변동계수), 사분위편차계수, 평균편차계수

  • 절대적인 분포의 산포도

1)범위(Range)

자료의 분산을 측정하는 가장 간단한 방법으로 자료의 관측치 가운데 가장 큰 최댓값과 최솟값의 차이를 말한다.

범위(R) = 자료의 최댓값 - 자료의 최솟값

- 가장 간단히 구할 수 있는 산포도이며, 표본의 크기가 일정하며 그다지 크지 않은 표본을 다룰 때 매우 편리하다.

- 사용되는 분야는 극히 제한을 받으며 공업적 품질관리 등에서 통계적 기법을 다룰 때 사용된다.


2)사분위수 범위(IQR)

사분위수범위(IQR) = Q3 - Q1


3)평균편차(Mean Deviation) <분산과 다름을 유의>

관측치들의 평균값으로부터 떨어져 있는 거리를 말한다.

평균편차란 평균값에 대한 각 변량의 편차의 절댓값을 평균한 값으로 보통은 산술평균에서의 편차의 절댓값의 평균값을 취하고 있다.

MD = 1nxixˉ\frac\sum \left | xi - \bar \right |

- 절댓값이 포함되어 수학적 처리의 복잡성과 통계적 추론에서 이용도가 낮기 때문에 별로 사용하지 않는다.

- 극단적인 값의 영향은 있으나 분산에 비해 적다는 이유로 사용하기도 한다.


4)사분편차(Quartile Deviation)

Q3에서 Q1을 뺀 값에 1/2값이다. 극단적인 값의 영향을 받지 않으며, 대푯값이 중위수일 때 쓰이는 산포도이다.

- 범위의 극단적인 값의 영향을 받아 불안정함을 개선하기 위하여 고안된 산포도로 주로 변수가 많을 때 사용한다.

사분편차 = (Q3 - Q1) / 2


5)분산과 표준편차

분산이 0이면 모든 변량이 평균값에 집중되고 있음을 의미하며,

분산의 값이 크면 클수록 변량이 평균에서 멀리 떨어져 있다는 것을 의미한다.

  • 상대적인 분포의 산포도

1)변이계수(CV)

표준편차를 산술평균으로 나눈 값을 의미한다.

- 추정통계학에서 표본의 크기를 설정하는 데 많이 쓰인다.

- 평균의 차이가 큰 OR 단위가 다른 두 집단의 산포를 비교할 때 이용한다.

- 변이계수의 값이 큰 분포보다 작은 분포가 상대적으로 평균에 더 밀집되어 있는 분포이다.

CV = S / xˉ\bar

2)사분위편차계수

사분편차를 중위수로 나는 몫을 사분위편차계수라 한다.

3)평균편차계수

평균편차를 중위수 또는 산술평균으로 나눈 몫을 평균편차계수라고 한다.

비대칭도

  • 왜도

자료분포의 모양이 어느 쪽으로 얼마만큼 기울어져 있는가, 즉 비대칭 정도를 나타내는 척도이다.

왜도가 0이면 대칭분포를 이룬다(정규분포)

왜도가 0보다 크면 왼쪽으로 기울어진 분포이다.

왜도가 0보다 작으면 오른쪽으로 기울어진 분포이다.

왜도의 절댓값이 클수록 비대칭 정도는 커진다.

- 피어슨대칭도(SkS_)

Sk=XˉMOS3(XˉMe)SS_ = \frac{\bar - M_} \approx \frac- M_)}

SkS_가 0이면 대칭분포를 이룬다

SkS_가 0보다 크면 왼쪽으로 기울어진 분포도이다.

SkS_가 0보다 작으면 오른쪽으로 기울어진 분포도이다.

-1 < SkS_ < 1

  • 첨도

분포도가 얼마나 중심에 집중되어 있는가, 즉 분포의 중심이 얼마나 뾰족한가를 측정하는 것이다.

첨도 = 3이면 표준정규분포로 중첨이라고 한다.

첨도 > 3이면 정점이 높고 뾰족한 모양으로 급첨이라고 한다.

첨도 < 3이면 낮고 무딘 모양으로 완첨이라고 한다.


첨도의 경우 기출문제에 한번 어렵게 등장한 적이 존재

Q.다음중 첨도가 가장 큰 분포는?

1)표준정규분포

2)평균=0,표준편차=10인정규분포

3)평균=0,표준편차=0.1인정규분포

4)자유도가 1인 t분포

첨도는 기본적으로 표준편차를 기준으로 생각하면 된다.

표준편차가 커지면 첨도도 커지고 표준편차가 작아지면 첨도도 작아지게 됨.

평균에서 뾰족하면(꼬리가 얇으면) 첨도가 작고, 평평해지면(꼬리가 두꺼우면) 첨도가 크게 된다.

문제는 t 분포.  t 분포는 자유도에 따라 달라지게 되며, 자유도가 커지면 근사적으로 표준정규분포 근사. 자유도가 1 이면 data 의 수는 2 이므로 표준편차는 상대적으로 매우 커진다.

→ 그러면 거의 균등(균일)분포와 같은 분포 성립.