총설

 

  • 과학적 방법

- 과학적 방법의 의의

이론 → 가설 → 관찰 및 검증을 통해 규칙을 발견하고 이를 일반화하고 논리적인 이론으로 정립.

모든 현상과 사건에는 원인이 있으며, 모든 현상을 이해하고 설명할 수 있다.

 


- 과학적 방법의 특징

재생가능성)

동일한 조건하에 동일한 결과가 재현되어야 한다.

 

경험성)

궁극적으로 인간의 감각에 의해 지각될 수 있는 것이어야 한다.→ 경험될 수 있는 것이여야 한다.

 

인과성)

자연발생이 아닌, 어떤 원인에 의해 나타난 결과이며 논리적 설명이 가능해야 한다.

 

객관성)

표준화된 도구와 절차 등을 통해 누구나 납득할 수 있어 한다.

 

상호주관성)

같은 방법을 사용했을 때 같은 해석 또는 설명에 도달할 수 있어야 한다.

 

체계성)

일정한 틀, 순서, 원칙에 입각하여 진행되어야 한다.

 

변화가능성)

기존의 신념이나 연구결과는 언제든지 비판되고 수정될 수 있다.

 

간결성)

적은 수의 변수로 보다 많은 현상을 설명할 수 있어야 한다.

불필요한 내용은 제외하고, 간결하게 설명되어야 한다.

 

반증가능성)

검증하려는 가설이 실험이나 관찰에 의해서 반증될 가능성이 있다는 것을 의미한다.

 

 


- 지식탐구방법

관습에 의한 방법 - 사회적인 습관 & 전통적인 관습

권위에 의한 방법 - 권위자나 전문가의 의견을 인용

 

직관에 의한 방법

- 가설설정 및 추론의 과정 x, 확실한 명제를 토대로 직접적인 인식 추구

과학에 의한 방법

- 가설을 세우고 자료를 수집 & 분석하여 일반적인 이론을 도출.

 

 


- 과학적 방법의 논리전개방식

 

연역법)

이미 참으로 인정된 보편적 원리를 가지고 현상에 연역시켜 설명하는 방법이다.

법칙과 이론으로부터 어떤 현상에 대한 설명과 예측을 도출하는 방법이다.

다른 부분을 실제연구없이 논리적으로 검증한다는 측면에서 경제적 but

최초의 이론 형성 어려움.

'가설설정 → 조작화 → 관찰&경험 → 검증'

ex) 모든 사람은 죽는다 → a는 사람이다. → 그러므로 디진다.

 

 

귀납법)

과학은 관찰과 경험으로부터 시작된다. 개별적인 사실들로부터 일반적인 원리를 이끌어내 보편성과 일반성을 가지는 하나의 결론을 내린다.

어느 정도의 자료만을 가지고도 상당수준의 일반화 법칙이 가능. but 아무런 이론적 배경 없이 현상의 속성을 측정하기 위한 변수들을 의미있게 선택하는데 한계 존재

'주제선정 → 관찰 → 유형의 발견 → 임시결론(이론)'

ex) 까마귀 1은 검다 ———> 까마귀 9999은 검다 → 고로 모든 까마귀는 검다.

 

연역법 귀납법은 서로 대비되는 장 단점으로 인해 상호보완적인 관계를 형성한다.

 

 

  • 과학에 있어서의 가치와 윤리

- 사회과학

일반화가 용이하지 않다.

사고의 기능이 제한 & 명확한 결론 어려움

인간의 형태 & 사고

새로운 이론이라도 기존의 이론과 완전 단절 x

- 자연과학

일반화가 용이하다.

사고의 가능성이 무한정, 명확한 결론 가능

동식물 & 자연현상

기존의 이론과는 전혀 다른 새로운 이론 등장

 

 


- 사회과학의 패러다임

 

 

1) 실증주의적 패러다임

사회현상은 실험과 같은 자연과학의 원리를 사용함으로써 연구되어야 한다고 보며, 사회 내의 법칙 규칙 등을 찾아내고자 한다.

 

- 연구자와 연구대상을 분리하고 가치중립성을 확보함으로써 사회적 실재 파악

- 현상의 원인을

객관적으로 측정하며, 일반화

를 전개

- 경험적인 관찰, 구조화된 양적 방법

 

 


2) 해석주의적 패러다임

개인의 다양한 경험과

사회적 행위의 주관적 의미에 대한 해석과 이해를 통해 설명

하고자 한다.

보편적으로 적용가능한 분석도구가 존재하지 않는다고 주장함으로써 상대주의적인 양상을 보인다.

 

- 인간 행위의 동기나 의도를 문화적 코드 & 사회의 복잡한 규범들의 맥락 속에서 파악하고자 한다.

- 신뢰성과 일반화보다는 타당성을 강조한다.

- 실증주의에 입각한 객관주의적 경험관을 극복하려고 한다. 비조작적, 불개입, 질적인 방법 선호

 


조사연구

 

 

  • 과학적 연구의 과정

문제정립 → 가설설정 → 연구설계 → 자료수집 → 자료분석 → 보고서 작성

 

 

1)문제정립

선행연구분석(문헌연구)는 문제정립 단계와 가설설정 사이단계에서 이루어진다.

 

- 설정된 연구의 적정성 판단기준

설정은 두 개 이상의 변수들 간의 관계를 서술해야 하며, 실증적 연구를 통해 해결될 수 있도록 작성

가능한 한 명백하고 확실한 것이여야 한다.

관찰 가능한 현상과 밀접히 연결되어야 한다.

 

 


2)가설설정

가설 : 둘 이상의 변수 또는 현상 간의 관계를 설명하는 검증되지 않은 명제 또는 연구 문제에 관해 검증할 수 있도록 기술된 잠정적인 응답이다.

 

 


3)연구설계

- 변수의 종류, 변수의 수, 변수의 성격등을 밝힌다.

- 표본추출의 문제, 즉 표본추출의 단위, 종류, 규모를 밝히며 가설의 검증방법과 오차문제도 고려

- 일정한 자료수집방법을 강구해야 한다.

 

 


4)자료수집

분석에 앞서 용이하게 분석될 수 있도록 일정하게 정리

 

 

5)자료분석

분석방법은 연구가설, 연구설계, 변수 간의 관계에 따라 미리 결정되는 것이 보통이다.

 

 

6)보고서 작성

 

  • 과확적 연구의 분석단위

- 분석단위의 요건

적합성, 명료성, 측정 가능성, 비교 가능성

 

 


- 분석단위의 분류

개인) 개개인의 특성을 수집하여 집단과 사회와의 상호작용을 기술할 때 주로 이용한다.

집단) 사회집단을 연구할 경우의 분석단위 → 가족, 학급, 학과등이 해당

 

 

조직&제도) 제도 자체의 특성 또는 이들 조직을 구성하는 개인

사회적 가공물 & 생성물) 인간이 아닌, 사회적 가공물/생성물도 분석단위에 포함된다.

 

 


- 분석단위에 대한 오류

 

생태학적 오류)

분석단위를 집단에 두고 얻은 연구의 결과를 개인에게 동일하게 적용함으로써 발생하는 오류

ex) 학급의 성적이 전반적으로 낮을 때, 어느 학생에 대해서 성적이 좋지못할 것이라고 단정

 

 

개인주의적 오류)

분석단위를 개인에 두고 얻은 연구의 결과를 집단에게 동일하게 적용하는 경우

ex) 학생의 성적이 매우 우수할 때, 학생이 속한 학급의 성적이 좋을 것이라 단정하는 경우

 

 

환원주의적 오류)

넓은 범위의 인간의 사회적 행위를 이해하는데 필요한 변수 또는 개념의 종류를 지나치게 한정

ex) 사회학자의 경우 사회학적 변수로만, 경제학자의 경우 경자학적 변수에 대해서만 고려.

 

 

  • 과학적 조사연구의 유형
- 방법에 의한 분류

질적연구

준거의 틀에 입각하여 인간의 행태를 이해

자연주의적&비통제적

주관적 & 해석적 & 귀납적이다.

일반화할 수 없다.(단일사례연구)

총체론적이다.

소규모 분석에 용이하다.

양적연구

사실이나 원인을 탐구하는 논리실증주의 입장

강제된 측정과 통제된 측정

확증적 & 추론적 & 연역적

일반화할 수 있다.(복수사례연구)

대규모 분석에 용이하다.

 

 

뭐가 더 낫다의 문제가 아닌, 상호보완적인 관점으로 바라봐야한다.

 

 


- 접근방법에 의한 분류

횡단적 연구

<가로>

표본조사

측정이 한 번 이루어진다.

정태적이다.

표본의 크기가 클수록 좋다.

종단적 연구

<세로>

현장조사

측정이 반복적으로 이루어진다.

동태적이다.

표본의 크기가 작을수록 좋다.

 

 

횡단적 연구)

특정 시점에서 집단 간의 차이를 연구하는 방법으로 특정 시점에서 다른 특성을 가지고 있는 집단들 사이의 차이를 측정하는 방법이다.

- 수집된 자료의 일정 시점에서의 한 집단 또는 사례들의 특징을 나타낸다.

- 언론기관의 여론조사나 인구&주택센서스 같은 현황조사를 위한 설계 등에서 사용된다.

 

 

종단적 연구) →

추세조사, 코호트조사, 패널조사

하나의 연구대상을 일정 기간동안 관찰하여 그 대상의 변화를 파악하는데 초점을 둔 기술적 방법.

둘 이상의 시점에서 동일한 분석단위를 연구하는 것으로, 어떤 대상의 동태적 변화 연구에 적합

 

추세조사)

동일한 전체 모집단 내의 변화를 여러시기에 걸쳐 표본을 추출하여 계속적으로 연구

어떤 광범위한 연구상의 특정 속성을 여러 시기를 두고 관찰&비교하는 것

 

 
코호트조사 - 동년배연구)

동기생 & 동시경험집단 연구에 해당한다.

특정 경험을 같이 하는 사람들이 가지는 특성

들에 대해 두 번 이상의 다른 시기에 걸쳐서 비교

ex) 특목고에 입학한 학생들을 대상으로 2012~17년까지의 자존감 변화를 연구하기위해 매년 표본추출 조사시행

 

 

패널조사)

동일집단 반복연구에 해당한다.

'패널'이라 불리는 특정 응답자 집단

을 정해놓고 그들로부터 상당히 긴 시간동안 지속적으로 연구자가 필요로 하는 정보를 획득하는 방법이다.

ex)공공기관의 행정서비스 만족도를 알아보기 위해 동일한 시민들을 표본으로 6개월 단위로 10년간 조사

 

 

 


- 목적에 의한 분류

 

탐색적 연구)

조사설계를 확정하기 이전 연구문제의 발견, 변수규명, 가설도출 등을 위해

예비적으로 실시

보통 연구문제에 대한 사전지식이 부족하거나 개념을 보다 분명히 하기위해 실시한다.

- 정확한 조사연구 및 가설 설계를 위한

명제 정립

을 목적으로 한다.

- 조사설계를 확정하기 이전

타당도를 검증

하기 위해 실시한다.

- 문헌연구, 경험자연구, 사례연구

 

 

기술적 연구)

어떤 현상에 대한 탐구와 명백화, 즉

현상을 정확하게 기술하는 것을 주 목적

으로 한다.

어떠한 사건이나 현상의 크기, 비율, 수준 등에 대한 단순 통계적인 자료를 수집하여 답을 구한다.

- 발생빈도와 비율을 파악할 때 사용, 상관관계 및 상황변화에 대한 각 변수 간의 반응을 파악.

-

탐색적 연구와 달리 연구문제 및 가설을 설정한 후 실시되므로 계획적이고 체계적이다.

- 연구집단에 대한

정확한 정보가 필요할 때

에 주로 활용된다.

- 물가조사, 국제조사 등의 사회적 문제에 대해 정확한 실태파악을 하여 정책적 대안을 마련목적

-

횡단적, 종단적 연구로 구분된다.

 

 

설명적 연구)

어떤 사실과의 관계를 파악하여

인과관계를 규명하거나 미래를 예측하는 조사이다.

'왜'에 대한 대답을 제공하는 조사이며, 현상에 대한 단순기술이 아닌, 인과론적 설명을 전개한다.

사회적 문제의 발생원인을 밝히고, 이를 해결하기 위한 정책대안을 마련하기 위해 널리 사용.

 

 


- 기타연구 유형

 

 

서베이조사)

기술적 연구의 일종으로, 모집단을 대상으로 추출된 표본에 대해 설문지와 같은 표준화된 조사도구를 사용하여 직접 질문

- 전수조사가 아닌, 표본조사에 해당하며, 실험이 아닌 질문지나 면접조사표를 이용

- 엄격한 표본추출절차, 조사&연구의 전체적인 설계 및 실시, 조사 문제의 개념정의 및 특정화.

 

장점

풍부한 자료

정확성이 비교적 높음

자료의 범위가 넓다.

 

단점

획득된 정보는 피상적이다.

실태조사는 시간과 비용이 많이 든다.

고도의 조사지식과 기술을 요구

 

 

사례조사)

특정 사례를 조사하여 문제를 종합적으로 파악하고, 그에 대한 실증적인 분석을 실행

소수 조사대상이 시간의 경과에 따라 어떠한 특징적 변화 양상을 보이는지 →

종단적 연구

기존 문서의 분석이나 관찰 등과 같은 방법으로 자료를 수집하며, 탐색적 목적으로 유용

장점

비교적 소수의 대상에 대한 자연적 발전이나 생활사 연구유용

가치적 측면의 파악이 가능

구체적이고 상세한 연구 유용

관련 변수 모를경우 탐색적 작업으로 사용가능

 

단점

조사의 폭과 깊이가 불분명 → 분석영역의 정확한 설정이 어렵다.

대표성이 불분명하고 일반화 가능성이 낮다.

자료의 신뢰성을 확보하기 어렵다.

조사자의 가치&주관 개입 가능성 높다.

 

조사연구의 설계

 

  • 조사설계의 이해

조사설계란 가설을 평가하기 위한 구조, 계획 및 전략이라고 할 수 있다.

 

- 인과관계의 확인

 

시간적 선후관계)

원인이 되는 사건이나 현상이 시간적으로 결과보다 먼저 발생해야 한다.

 

 

동시변화성(공변성)의 원칙)

원인이 되는 현상이 변화하면, 결과적인 현상도 항상 같이 변화해야 한다.

 

 

비허위적 관계)

외부의 영향력을 배제한 상태에서 순수하게 두 변수만의 관계를 볼 수 있어야 한다.

 

 

  • 조사설계의 타당도

 

내적 타당도)각 변수 사이의 인과관계를 추론하여 그것이 실험에 의한 진정한 변화에 의한 것인지를 판단.

인과조건의 충족 정도를 말한다.

 

 

- 타당도 저해요인

1)외부사건

연구기간 동안 천재지변이나 예상치 않았던 사건과 같이 특정 사건이 일어나는 경우, 환경이 바뀌고 이에 따라 다른 결과가 나타날 수 있다.

 

2)성숙 또는 시간의 경과

시간의 흐름에 따라 연구대상이나 현상에 변화가 발생함으로서 결과에 영향을 미친다.

 

- 외부사건과 성숙은 다른 개념임.

 

3)통계적 회귀

최초의 측정에서 양 극단적인 값을 보인 결과가 이후 재측정의 과정에서 평균값으로 회귀한다.

 

4)검사요인(주시험효과,테스트효과)

측정이 반복되면서 얻어지는 학습효과로 인해 실험대상자의 반응에 영향을 미친다.

 

5)선별요인(선택요인)

실험집단과 통제집단을 선별할 때 편견을 가짐으로써 발생한다.

 

6)도구요인

측정자의 측정도구가 달라짐으로 인해 결과에 영향을 미친다.

 

7)상실요인

조사기간 중 특정 실험대상인이 탈락함으로서 결과에 영향을 미친다.

 

 

- 내적 타당도를 놓이는 방법

무작위할당(Random assigment)

어느 하나의 대상이 실험집단이나 통제집단에 할당될 동일한 기회의 조건을 가진 상태로 두 집단 중 하나에 배정하도록 한다는 것이다. → 양 집단에서 뽑힐 동일한 확률을 부여

 

 

짝짓기(Matching)

실험집단과 통제집단을 동일하게 하기 위해 주요 변수들을 미리 알아내어 분포가 똑같이 나타나도록 처치

모든 특성, 요인, 조건, 변수 등에서 정확하게 서로 똑같은 대상들을 둘씩 골라 집단구분.

 

 


외적 타당도)연구의 결과에 의해 기술된 인과관계가 연구대상 이외의 경우로

확대&일반화될 수 있는 정도

 

 

- 타당도를 저해하는 요인

1)표본의 대표성

연구의 제반 조건들이 모집단의 일반적인 상황과 유사해야 결과 일반화 가능

 

2)실험조사에 대한 반응성(호손 효과)

실험대상자 스스로 실험의 대상이 되고 있음을 인식할 때 나타나는 의식적 반응

 

3)플라시보 효과(위약효과)

거짓약을 진짜 약으로 가장하여 환자에게 복용하였을 때, 환자의 병세가 호전됨;;

 

4)검사의 상호작용 효과

 

5) 표본의 편중

 

 

- 외적 타당도를 높이는 방법

 

표본의 대표성 높이기

무작위할당을 통해 표본자료가 모집단의 특성을 충분히 반영하고 있는지를 확인.

 

조사반응성(반응효과, 호손효과)을 줄인다.

 

 

  • 실험적 조사설계의 이해

실험은 엄격히 통제된 상황에서 두 변수 사이의 인과관계를 검증하는 것이다.

- 연구가설의 진위여부를 확인하는 절차이며, 내적 타당도를 확보하기 위한 노력

- 실험의 검증력을 극대화하고자 하는 시도이다.

 

인과관계를 추리하기 위해

실험집단과 통제집단

으로 나누고, 실험집단에 자극을 가하여 나타난 결과를 통제집단과 비교하는 방식이다.

 

 


- 실험적 조사설계의 구성요소

독립변수의 조작, 무작위할당, 외생변수의 통제

 

 

1) 외생변수의 통제

독립변수와 종속변수 이외의 종속변수에 영향을 미칠 수 있는 변수의 영향을 제거한다.

 

 

외생변수 통제방법

제거: 외생변수로 작용할 수 있는 요인이 실험상황에 개입되지 않도록 하는 것.

 

상쇄

:

외생변수가 작용하는 강도가 동일하지 않은 상황일 때 서로 다른 실험을 실시함으로써 외생변수의 영향을 제거한다.

 

무작위: 조사대상에 양 집단에서 뽑힐 동일한 확률을 부여함으로써 변수를 통제

 

짝짓기:

실험&통제집단을 동일하게 하기 위해 주요 변수들을 미리 알아내어 실험집단과 통제집단에서 그것들의 분포가 똑같이 나타나도록 하는 것이다.

 

 

 

2) 무작위할당

내적 타당도를 확보하기 위해 기본적으로 실험집단과 통제집단의 동질성이 요구된다.

 

 

3) 독립변수의 조작

인과성과 시간적 선행성을 입증하기 위해 독립변수의 조작이 필요하다.

"만약 x가 y의 원인이라면, x의 변화를 유도할 때 y의 변화가 뒤따른다"

 

 

  • 실험적 조사설계의 유형

순수실험설계 > 유사실험설계 > 진실험설계 > 사후실험설계

 

 

1)순수실험설계

실험집단과 통제집단에 대한 무작위할당, 독립변수 조작, 외생변수의 통제 등 실험적 조건 갖춘 설계

내적 타당도를 저해하는 요인들을 최대한 통제한 설계유형 —>

상업적 연구보다 학문적 연구

 

- 통제집단 사전사후 검사설계

무작위할당

으로 실험집단과 통제집단 구분 → 실험진단에 독립변수 조작, 통제집단 조작 x

개입 전 종속변수의 측정을 위한 사전검사 실시 후, 조작 가함

실험집단과 통제집단의 동질성 확보 및 외생변수를 통제.

내적 타당도는 높으나, 외적 타당도가 낮다.

 


- 통제집단 사후검사설계

실험대상자를 무작위로 할당한 후

사전검사 없이 실험집단

→ 조작, 통제집단 → 조작 x

사전검사의 영향을 제거할 수 있으며, 통제집단 전후비교설계에 비해 간단, 비용 단축

종속변수의 측정결과를 단지 독립변수의 조작에 의한 결과라고 단정짓기 어렵다.

사전검사를 하지 않으므로 실험집단과 통제집단의 동질성을 확신할 수 없다.

 


- 솔로몬 4집단 설계

연구대상을 4개의 집단으로 무작위할당 → 통제집단 전후비교설계, 사후비교설계 혼합.

사전검사를 한 2개의 집단 중 하나와 사전검사를 하지않은 2개의 집단 중 하나를 실험처치하여 실험집단으로 하며, 나머지 2개의 집단에 대해서는 통제집단으로 둔다.

실험집단 및 통제집단의 선정과 관리가 어렵고 비경제적이다.

 


- 요인설계

실험집단에 둘 이상의 프로그램을 실시하여 독립변수가 복수인 경우 이용하는 방법이다.

개별 독립변수와 종속변수, 복수의 독립변수와 종속변수의 인과관계를 검증한다.

 

 

 


2)유사실험설계

실험설계의 기본요소 중 한두 가지가 결여된 설계유형이다.

 

무작위할당 등에 의해 실험집단과 통제집단을 동등하게 할 수 없는 경우, 무작위할당 대신 실험집단과 유사한 비교집단을 구성한다.

순수실험설계에 비해 내적 타당도가 낮지만, 현실적으로 실험설계에 있어 인위적인 통제가 어렵다는 것을 감안할 때, 실제 연구에서 더 많이 사용된다.

- 비동일 통제집단

 

- 단순시계열설계

 

- 복수시계열설계

 

- 회귀불연속설계

 

 

 

 


3)전실험설계(원시실험설계)

무작위할당에 의해 연구대상을 나누지 않고, 비교집단 간의 동질성이 없으며, 독립변수의 조작에 따른 변화의 관찰이 제한된 경우에 실시하는 설계유형.

인과적 추론이 어려운 설계로서, 내적&외적 타당도를 거의 통제하지 못한다.

- 1회 사례연구

- 단일집단 사전사후검사설계

- 정태적 집단 비교설계

 

 

 


4)사후실험설계

독립변수를 조작할 수 없거나 연구대상을 조건에 따라 설계하기 어려운 경우에 사용된다.

독립변수를 조작할 수 없는 상태 또는 이미 노출된 상태에서 변수들 간의 관계를 검증

독립변수에 대한 통제가 윤리적으로 바람직하지 않을 때 사용한다.

실제 상황에서 검증하기 떄문에 일반적인 실험설계에 비해서 현실성이 높은 결과를 얻을 수 있다.

 

 

연구의 요소

 

  • 개념

개념은 일정하게 관찰된 현상을 대표할 수 있는 추상적 용어로 표현한 것을 말한다.

 

- 개념의 구체화 과정: 개념의 정의(개념화) → 조작적 정의(조작화) → 현실세계(변수의 측정)

 

 

1)개념적 정의(사전적 정의)

연구대상이 되는 사람 또는 사물의 행태 및 속성, 다양한 사회적 현상들을 개념적으로 정의

하나의 개념을 정의하기 위해 다른 개념을 사용함으로써

그 자체로 추상적 & 일반적 & 주관적 양상

.

단정적이어야 하며, 중의성을 띠어서는 안된다.

추상성으로 인해 사람마다 다르게 나타날 수 있으며, 그로 인해 추상적으로 정의된 개념으로서의 가설에 대해 실증적인 검증을 하기는 어렵다.

 

 


2)조작적 정의

추상적인 개념들을 경험적 & 실증적으로 측정이 가능하도록 구체화한 것이다.

될 수 있는 한 실행 가능하고 관찰 가능한 조작을 좀 더 명확하게 표현한 용어로 구성된 것이며, 확인이 가능한 정의에 불과하다.

조작적 정의의 기능으로 재생가능성을 들 수 있다. → 상당히 실용주의적이며 최종 산물은 수량화!

 

 


3)재개념화

주된 개념에 대한 정리 & 분석을 통해 개념을 보다 명백히 재규정하는 것을 말한다.

개념의 한정성을 높여 관찰 및 측정을 가능하게 하며, 주된 개념적 요소를 알 수 있도록 해준다.

 

  • 이론

현상에 대한 설명과 예측을 목적으로 변수 간의 관계를 밝힘으로써 그 현상에 대한 체계적인 견해를 제공하는 일련의 상호 연결된 개념 및 정의 또는 명제이다.

→ 경험적으로 검증이 가능하고 법칙적인 일반성을 포함하는 일련의 진술

 

- 이론의 기능

1) 과학의 주요방향 결정

2) 현상의 개념화 및 분류화

3) 요약

4) 사실의 예측 및 설명

5) 지식의 확장

6) 지식의 결함 지적.

 

  • 변수

 

- 변수의 종류

독립변수: 연구자에 의해 조작되는 변수이자 원인을 가져다주는 기능을 하는 변수.

종속변수: 독립변수의 원인을 받아 일정하게 전제된 결과를 나타내는 기능을 하는 변수.

 

외생변수

:

독립변수와 종속변수 간에 상관관계가 있는 것처럼 보이지만 실제로는 두 변수가 우연히 어떤 변수와 연결됨으로써

마치 인과적 관계가 있는 것처럼 보이도록 하는 모든 변수

 

매개변수

:

독립변수와 종속변수 간에 직접적인 관련이 없으나 제 3의 변수가 두 변수의 중간에서 매개자 역할을 하여 두 변수 간에 간접적인 관계를 맺도록 하는 변수

→ 독립변수의 결과인 동시에 종속변수의 원인이 된다.

 

선행변수:

인과관계에서 독립변수에 앞서면서 독립변수에 유효한 영향력을 행사하는 제3의 변수

선행변수를 통제해도 독립변수와 종속변수 사이의 관계는 사라지지 않지만, 독립변수를 통제하는 경우에는 선행변수와 종속변수 사이의 관계는 약화되거나 사라진다.

 

억압변수:

두개의 변수 간에 상관관계가 있으나 그와 같은 관계가 없는 것처럼 보이게 하거나 약화시키는 제 3의 변수이다. <있는데 없는것처럼 보이게 함>

두 개의 변수에 대해 각각 긍정적 & 부정적으로 상관되어 변수간의 관계를 억압함으로서 '가식적 영관계'를 형성한다

 

허위변수:

두 개의 변수 간에 상관관계가 없으나 관계가 있는 것처럼 보이게 하는 제 3의 변수

<없는데 있는것처럼 보이게 함>

 

왜곡변수: 두 변수 간의 관계를 어떤 식으로든 왜곡시키는 제 3의 변수이다.

 

통제변수:

독립&종속간의 관계를 명확히 파악하기 위해 그 관계에 미칠 수 있는 제 3변수를 통제하는 변수.

 

조절변수:

독립변수와 종속변수 사이의 관계에서 영향을 미칠 것으로 여겨지는 제 3의 변수.

독립변수가 종속변수에 미치는 영향을 강화해 주거나 약화해 주는 변수이다.

 

  • 가설

 

- 가설설정시 기본조건

연구문제를 해결할 수 있어야 한다.

실증적인 확인을 위해 구체적이어야 하며 현상과 관련성을 가져야한다.

변수로 구성되며, 그들 간의 관계를 나타내고 있어야 한다.

문장을 조건문 형태의 복문으로 나타내야 한다.

표현은 간단명료하며, 경험적&이론적으로 검증 가능해야 한다.

검증결과는 광범위하게 적용될 수 있어야하며, 계량화할 수 있어야 한다.

 


- 가설의 평가기준

1)경험적 검증가능성

2)간결성

3)계량화 가능성

4)입증의 명백성

5)가설 자체의 개연성

6)가치중립성

 


- 가설의 종류

1)식별가설

어떤 사실에 대한 원인의 규명이 아닌, 그 사실의 성질과 기능 그리고 형태를 묘사하기 위한 가설

- 사물의 성질이나 형태의 강도, 크기, 정도, 위치, 분포 등을 제시한다.

- 분석을 통해 사물의 구조 또는 구성요소를 식별하고, 종합을 통해 개개의 요소들을 합함으로써 그것이 의미 있는 어떤 사물임을 식별한다.

 

2)설명적 가설

사실과 사실간의 관계를 설명해주는 가설을 말한다. "왜"에 대한 대답.

- 어떤 두 개 이상의 사물들 간의 관계의 양상에 일정한 규칙성, 즉 공통점이 있음을 말하기도 한다.

- 어떠한 사실의 인관관계, 즉 원인 또는 사실들 간의 시간적 순서, 사실들간의 작용 또는 반작용의 양상이나 크기 등을 말한다.

 

3)연구가설

연구문제에 대한 잠정적 대답이다.

경험적으로 검증 가능하도록 진술한 가설로서 '실험적 가설' 혹은 '과학적 가설'이라고 한다.

 

4)통계적가설

어떤 특징에 대해 둘 이상의 집단 간의 차이나 한 집단 내 또는 몇 집단간의 관계, 표본 또는 모집단 특징의 점추정 등을 묘사하기 위해 설정하는 것이다.

- 통계적 대립가설과 통계적 귀무가설로 구분된다.

 

5)영가설(귀무가설)

처음부터 버릴 것을 예상하는 가설로서, 의미 잇는 차이나 관계가 없는 경우의 가설

- 연구가설은 영가설이 직접 채택될 수 없을때 자동적으로 받아들여지는 가설로서 직접 검증할 필요가 없는 반면, 영가설을 직접 검증을 거쳐야 한다.

 

6)대립가설(작업가설)

영가설에 대립되는 가설로서, 영가설이 거짓일 때 채택하기 위해 설정하는 가설이다.

연구자가 주장하고자 하는 가설로서, 종종 연구가설과 동일시된다.

추정개요

표본의 특성을 나타내는 수치인 통계량을 기초로 하여 모집단의 특성인 모수를 추측하는 방법

  • 바람직한 통계적 추정량 결정기준

1)불편성(Unbiasedness) ⇒ 편의가 없는 것을 의미한다.

→ 어떤 모수의 추정량이 기댓값의 원래 모수가 되는 성질

추정량의 기대치가 추정할 모수의 실제값과 같을 때, 이 추정량은 불편성을 가졌다고 한다.

모수 θ\theta의 추정량을 θ^\hat\theta 으로 나타내면 θ^\hat\theta의 기댓값이 θ\theta가 되는 성질이다.

E(θ^)=θE( \hat{\theta}) = \theta

cf)편의: 추정하고자 하는 모수와 추정량의 기댓값과의 차이

hat표시는 추정량임을 나타내기 위함이다.


2)효율성(Efficiency)

추정량 θ^\hat\theta이 불편추정량이고, 그 분산이 다른 추정량 θ^\hat\theta i에 비해 최소의 분산을 갖는 성질이다.

Var(θ^1)Var(θ^2)일때 θ^2가 더 효율적이다Var(\hat\theta1) \geq Var(\hat \theta2)일 때 \space \hat\theta2가\space 더 \space효율적이다

3)일치성(Consistency)

표본의 크기(n)이 커짐에 따라 추정량 θ^\hat\theta이 확률적으로 모수 θ\theta에 가깝게 수렴하는 성질이다.


4)충분성(Sufficiency)

모수에 대하여 가능한 많은 표본정보를 내포하고 있는 추정량의 성질이다.

점추정

모집단으로부터 추출된 표본을 이용하여 하나의 수치로 모수를 추정하는 것을 말한다.

  • 표준오차(Standard error) = 표본평균의 표준편차

통계량의 표준편차를 표준오차라고 하며, 표준오차는 모집단의 표준편차보다 언제나 작다.

Standard Error[SE]=σnStandard \space Error[SE] = \frac{\sigma}{\sqrt n}

모집단의 표준편차가 커질수록 표준오차 또한 커진다.

표본의 크기가 클수록 표준오차는 작아진다 → 모집단에 근접해지기 때문에

표준오차가 작은 추정량이 더 좋은 추정량이라고 말할 수 있다.

cf) 표본오차 vs 표준오차

표본오차 - 모집단과 표본의 차이를 말하는 것

표준오차 - 통계량의 분포인 표본분포의 표준오차를 의미한다.


  • 모수 점추정

1)모평균의 점추정

모평균의 점추정은 표본평균과 같다. 즉, 모집단 평균 u의 불편추정량은 Xˉ\bar이다.

표본평균Xˉ모평균u표본평균 \bar \Rightarrow 모평균 u

2)모분산/ 모표준편차의 점추정

모분산의 점추정량은 표본분산과 동일하다. 모표준편차의 점추정량은 표본표준편차와 같다.

표본분산S2모분산σ2, 표본표준편차S모표준편차σ표본분산 S^ \Rightarrow 모분산 \sigma^,\space 표본표준편차S \Rightarrow 모표준편차 \sigma

모집단 분산 σ2\sigma^2의 불편추정량은 S2S^2이다.

하지만 모집단 표준편차 σ\sigma의 불편추정량이 표본표준편차 s인 것은 아니다.


3)모비율의 점추정

모비율이란 모집단 속에서 어떤 특정한 속성을 갖는 것의 비율을 의미한다.

표본비율p^모비율p표본비율 \hat \Rightarrow 모비율 p

구간추정

  • 신뢰도와 신뢰구간

신뢰수준 95%라고 함은, 동일한 추정방법을 사용하여 신뢰구간을 100회 반복하여 추정한다면, 95회 정도는 동일한 결과가 나오는 것을 의미한다. 추정량의 분포가 정규분포를 따를 때의 경우가 많음.

신뢰구간

일정한 구간을 제시하여 모수가 포함되었을 것이라고 제시한 구간을 말한다.

95%의 신뢰구간이란 신뢰구간을 100회 반복하여 측정했을 때 95번은 그 구간 내에 모평균이 포함된다는 의미이다.

u의신뢰구간=Xˉ+신뢰계수표준오차u의 신뢰구간 = \bar+-신뢰계수*표준오차

  • 표본의 크기

1)모평균 추정시 표본의 크기

추정식의 양쪽에서 D단위만큼만 벌어지는 구간을 가지려 한다고 가정.

cf) D(오차한계) = 신뢰계수 * 표준오차

오차한계 = 모평균 추정구간의 가운데에서 허용할 최대허용오차

nZ2a/2σ2D2n \geq \frac}*\sigma^2}}

2)모비율 추정시 표본의 크기

모집단의 추정에서 모비율을 모르고 있는 것이 일반적이다.

만약 모비율에 대해 대체적인 값을 알고 있으면 이를 이용하고, 불가능하다면 소규모의 예비조사로 대체적인 값을 구한다.

이값마저 알 수 없다면 p^\hat=1/2를 사용하여 표본의 크기를 결정한다.

np^(1p^)(Za/2D)2n\geq\hat(1-\hat)(\frac}})^2

표본크기 결정요인

- 신뢰도

일정한 오차의 범위 내로 신뢰구간을 설정하고자 할 때 신뢰도에 의해서 Z나 t가 결정되기 때문에 신뢰도를 높일수록 표본의 크기는 커야한다.

- 표준편차

모집단의 분산 또는 표준편차가 클수록 표본의 크기는 커야한다.

- 오차의 크기

오차를 적게 하기를 원하면 표본의 크기를 크게 해야 한다.

  • 모평균의 신뢰구간

1)모분산을 알고있을 경우

XˉZa/2σnuXˉ+Za/2σn\bar X - Z_\frac{\sigma}{\sqrt n} \leq u \leq \bar X + Z_\frac{\sigma}{\sqrt n}

2)모분산을 모르는 대표본(n≥30)일 경우

XˉZa/2SnuXˉ+Za/2Sn\bar X - Z_\frac{\sqrt n} \leq u \leq \bar X + Z_\frac{\sqrt n}

3)모분산을 모르는 소표본(n<30)일 경우

소표본일 경우에는 정규분포가 아닌, 자유도가 N-1인 T분포가 된다.

Xˉta/2SnuXˉ+ta/2Sn\bar X - t_\frac{\sqrt n} \leq u \leq \bar X + t_\frac{\sqrt n}

  • 모평균 차이의 신뢰구간

1)모분산을 알고있을 경우

두 모집단의 분포가 정규분포를 하고, 모분산이 알려진 경우 Z통계량을 이용

(Xˉ1Xˉ2)Za/2σ12n1+σ22n2u1u2(Xˉ1Xˉ2)+Za/2σ12n1+σ22n2(\bar X_1 -\bar X_2)-Z_ \sqrt {\frac{\sigma^2_1}+\frac{\sigma^2_2}} \leq u_1-u_2\leq(\bar X_1 -\bar X_2)+Z_ \sqrt {\frac{\sigma^2_1}+\frac{\sigma^2_2}}

2)모분산을 모르는 대표본(n≥30)일 경우

대포본이지만 두 모집단을 모르고 있을 경우, 모분산 대신 표본분산 사용

(Xˉ1Xˉ2)Za/2S12n1+S22n2u1u2(Xˉ1Xˉ2)+Za/2S12n1+S22n2(\bar X_1 -\bar X_2)-Z_ \sqrt {\frac{ S^2_1}+\frac} \leq u_1-u_2\leq(\bar X_1 -\bar X_2)+Z_ \sqrt {\frac+\frac}

3)모분산을 모르는 소표본(n<30)일 경우

소표본에서 두 모분산을 모르지만 같다는 것을 알고 있을 경우 자유도가 n1+n2-2인 t분포 이용.

(Xˉ1Xˉ2)ta/2, n1Spσ12n1+σ12n1u1u2(Xˉ1Xˉ2)+ta/2, n1Spσ12n1+σ12n1(\bar X_1 -\bar X_2)-t_,\space_S_p \sqrt {\frac{\sigma^2_1}+\frac{\sigma^2_1}} \leq u_1-u_2\leq(\bar X_1 -\bar X_2)+t_, \space _S_p \sqrt {\frac{\sigma^2_1}+\frac{\sigma^2_1}}
  • 모비율 / 모비율 차이의 100(1-a)% 신뢰구간

1)모비율의 신뢰구간

모비율 p의 추정량은 표본비율이며 이항분포의 정규근사를 이용한 Z통계량을 이용한다.

p^Za/2p^(1p^)npp^+Za/2p^(1p^)n\hat - Z_\sqrt{\frac{\hat(1-\hat)}} \leq p \leq \hat + Z_\sqrt{\frac{\hat(1-\hat)}}

2)두 모비율 차이의 신뢰구간

p^1p^2Za/2p1^(1p1^)n1+p2^(1p2^)n2p^1p^2p^1p^2+Za/2p1^(1p1^)n1+p2^(1p2^)n2 \hat_ - \hat_-Z_\sqrt{\frac{\hat}(1-\hat})}}+\frac{\hat}(1-\hat})}}} \leq \hat_ - \hat_ \leq \hat_ - \hat_+Z_\sqrt{\frac{\hat}(1-\hat})}}+\frac{\hat}(1-\hat})}}} 

확률 및 확률변수

  • 확률

- 확률의 정의

  1. 고전적 방법

    어떤 실험의 가능한 결과가 모두 n가지이고, 각 결과가 나타날 가능성이 모두 동일하고, 서로 중복되지 않는다고 할 때 사상 A에 속하는 결과가 a가지이면 사건 A의 확률은 a / n으로 정하는 법

  1. 경험적 확률(상대도수에 의한 방법)

    충분히 많은 횟수의 반복 시행에서 어떤 사상의 확률로 정하는 방법.

    경험적인 결과에 기초를 두어 정하는 확률을 흔히 경험적 확률이라고 한다.


- 표본공간과 사상

표본공간:

한 실험에서 나타날 수 있는 가능한 모든 결과의 집합 S이다. 즉, 시행에 의하여 일어날 수 있는 가능한 모든 결과로 된 집합을 말한다.

사상:

표본공간의 부분집합을 의미한다.

공사상: 표본공간의 어떤 원소도 갖고 있지 않은 사상이다.

여사상: 사상 A가 일어나지 않을 사상으로 A여집합으로 나타낸다.

배반사상: A와 B 두 사상이 동시에 일어날 수 없는 사상이다. (A와B의 교집합 X)

독립사상: A와 B 두 사상이 서로 영향을 미치지 않으면 두 사상 A와 B는 독립이다.

독립: P(AB)=P(A)P(B)P(A \cap B) = P(A)P(B)


- 조건부 확률

한 사건이 일어날 것을 전제로 다른 사건이 일어날 확률에 관한 것으로 일반적으로

P(AB)P(BA) P(A\mid B) \neq P(B\mid A) 

조건부확률에서는 두 변인이 상호독립인지가 매우 중요한 포인트이다.

  • 순열과 조합

- 순열

n개의 원소로 된 집합으로부터 한 번에 x개의 원소를 선택하여 이들 간에 순서를 정하여 늘어놓는 방법을 순열이라고 한다.

- 조합

n개의 원소로 된 집합으로부터 한 번에 x개의 원소를 순서에 관계없이 비복원으로 선택하는 방법을 조합이라고 한다.

- 중복조합 → 은근히 헷갈리는 단원

서로 다른 m개 중에서 중복을 허락하여 k개를 선택하는 조합의 수

  • 확률변수

확률변수는 어떤 실험의 단순 사상들에 각각 하나의 숫자를 부여한 것이다. 또한 확률변수는 그것이 가지는 숫자들의 성질에 따라 이산확률변수와 연속확률변수로 분류할 수 있다.

- 이산확률변수

확률변수가 어떤 구간 내의 특정한 값만을 취하는 경우를 말한다.

- 연속확률변수

어떤 구간 내의 임의의 값을 취할 확률을 말한다.

1)기댓값

평균과 같은 것으로 확률변수가 취할 수 있는 각 값에 해당하는 확률을 곱하여 모두 더하는 것이다.

실험을 지속적으로 반복했을 때 평균적으로 기대할 수 있는 값으로 확률변수의 중심화 경향치를 나타내는 특성치를 말한다.

E(X)=[xp(x)]E(X) = \sum [x * p(x)]


2)분산

확률변수의 산포도를 나타내는 특성치가 분산과 표준편차이다.

Var(X)=x2p(x)[E(x)]2Var(X) = \sum x^p(x) - [E(x)]^

Var(X)=E(x2)[E(x)2]Var(X) = E(x^) - [E(x)^]

- 분산의 성질

Var(X + Y) = Var(X) + Var(Y) + 2Cov(X,Y) <Cov는 공분산을 의미한다>

Var(X - Y) = Var(X) + Var(Y) - 2Cov(X,Y)

확률분포

  • 확률분포 일반

확률변수의 성격을 나타내는 것으로, 표본공간에 나타나는 모든 값들과 그 값에 대응하는 확률을 동시에 표시한 것을 말한다.

- 이산확률분포

확률변수가 이산변수인 경우로 이항분포, 포아송분포, 초기하분포, 기하분포, 다항분포

- 연속확률분포

확률변수가 소수점의 값을 포함하는 실수영역으로, 정규분포, 표준정규분포, T,F,카이제곱,지수분포

  • 이산확률분포

1)이항분포

확률실험에서 나타날 수 있는 기본결과가 두 가지뿐일 경우이다.

어떤 시행에서 사건 A가 일어날 확률을 p, 사건 A가 일어나지 않을 확률을 q(q= 1-p)라 하고 이 시행을 독립적으로 n회 반복할 때, 그 중에서 x회만 A가 일어날 확률은

B(n,p) = nxCpxqnx_^\textrmp^q^

- p가 1/2에 가까워짐에 따라 그래프는 좌우대칭의 산 모양 곡선이 된다.

- p < 0.1이고 n > 50일 때는 포아송분포에 근사된다.

- 이항분포의 정규근사치

np ≥5 또는 n(1-p) ≥ 5일 경우 평균이 np이고 분산이 np(1-p)인 정규분포와 비슷한 모양이 된다.

시행횟수 n이 클 때에는 정규분포를 이용하여 이항확률의 근사치를 구할수가 있다.


2)베르누이 시행

각 시행의 결과는 상호 배타적인 두 사건으로 구분된다. 즉, 성공 또는 실패이다.

각 시행은 서로 독립적이다.

베르누이 시행을 n번 독립적으로 반복시행했을 때의 확률변수 X를 성공(X=1) 또는 실패(X=0)이라 하면 X의 분포는 이항분포를 따르며 확률밀도함수 f(x)는 다음과 같다.

f(x)=px(1p)nx=pxqnxf(x) = p^(1-p)^ = p^q^


3)포아송분포

일반적으로 단위시간, 단위면적 또는 단위공간 내에서 발생하는 어떤 사건의 횟수를 확률변수 X라 하면, 확률밀도 X는 람다값을 모수로 갖는 포아송분포를 따른다고 한다.

f(x)=eΛΛxx!f(x) = \frac\Lambda^}

- 포아송분포의 성립조건

독립성:

발생하는 사건의 횟수는 서로 중복되지 않는다.

비례성:

사건이 한번 발생할 확률은 시간길이 또는 면적에 비례한다.

비집락성:

짧은 시간 동안 또는 작은 영역 내에서 사건이 두 번 이상 발생할 확률은 매우 작기 때문에 무시할 수 있다.


4)기하분포

단 한번의 성공을 위해 실패를 거듭해야 하는 경우 기하분포를 이용한다.

f(x)=pqx1,x=1,2,3...q=1pf(x) = pq^, x= 1,2,3... q=1-p

E(X) = 1/ P , Var(X) = q / p^2

  • 연속확률분포

1)정규분포

표본을 통한 통계적 측정 및 가설검증이론의 기본, 여러가지 다른 분포에 대해서 근사값을 제공

특징)

평균과 표준편차에 의해 그 위치와 모양이 결정된다.

첨도는 3이며, 왜도는 0이다. cf)왜도 - 비대칭 정도, 첨도 - 분포의 중심이 얼마나 뾰족한지.

산술평균(Xˉ\bar) = 중위수(MeM_) = 최빈값(MoM_)

정규분포곡선은 x축과 맞닿지 않으므로 확률변수가 취할 수 있는 값의 범위는 무한대이다.

이항분포의 확률 근사치를 계산하는데 매우 유용하다.

개별치의 확률분포가 정규분포가 아니더라도, 표본이 커질수록 그 분포는 정규분포에 가까워진다.


2)표준정규분포

다른 평균과 표준편차를 가진 정규분포를 비교하기 위해서는 표준화를 해주어야 한다.

- 표준화(Standarization)

평균이 0이고, 표준편차가 1이 되도록 해주는 작업이다.

Z=Xuσ, Z N(0,1)Z = \frac{\sigma},  Z\sim  N(0,1)


3)T-분포

자유도에 따라 모양이 변하며, 0을 중심으로 하는 좌우대칭형, 자유도가 무한대일 경우에는 표준정규분포에 근사한다.

- 특징

평균은 0이고, 평균을 중심으로 좌우대칭이다.

일반적으로 분산은 1보다 크나, 표본수가 커질수록 1에 접근한다.

자유도에 따라 제각기 다른 모형이며, 자유도가 클수록 중심부가 더 솟은 모양이 된다.

정규분포보다 꼬리가 두꺼우며 첨도는 3보다 크다.

표본의 크기 n이 30보다 작을 때 사용

모평균, 모평균의 차 또는 회귀계수의 추정&검정에 주로 사용된다.


4)F-분포

확률변수 X가 자유도(m,n)인 F-분포를 따를 때 다음과 같이 표현된다.

- 특징

왼쪽으로 비스듬히 기울어져 있지만 그 정도는 자유도가 증가함에 따라 대칭성에 가까워진다.

항상 양의 값을 가지며 오른쪽 긴 꼬리 비대칭분포 형태를 이루고 있다.

표본분산과 모분산과의 관계를 이용하여 모분산비에 대한 추론을 하는 데 사용한다.

두 집단의 분산동질성 검정에 사용된다.

확률변수 X가 F(m,n)을 따를 때 1/X 분포는 F(n,m)을 따른다.


5)카이제곱 분포

자유도의 크기에 따라 분포의 모양이 변하고, 자유도가 커지면 대칭에 가까워지는 분포이다.

- 특징

왼쪽으로 기울어진 연속형 분포이며 자유도가 커질수록 오른쪽으로 폭넓게 기울어지는 모양을 나타내며 정규분포에 근접한다.

Z~N(0,1)의 제곱 Z2Z^2는 자유도가 1인 카이제곱분포를 따르며,

자유도가 N인 카이제곱분포의 평균은 n이며, 분산은 2n이다.

모분산이 특정한 값을 갖는지 여부를 검정하는데 사용되며 → 독립성 검정 & 적합성 검정에 사용.

  • 표본분포와 중심극한정리

- 표본분포

모집단으로부터 채택된 일정한 크기의 표본들을 대상으로 분석한 결과 타나난 통계량들의 분포

가) 모집단분포가 정규분포가 아닐 때 표본평균의 분포


모집단의 분포가 정규분포가 아닐 경우 표본평균 Xˉ\bar가 정규분포를 따른다고 할 수 없다.

하지만, 표본의 크기가 충분힐 클 때는 Xˉ\bar의 분포는 정규분포로 볼 수 있다. → 중심극한정리

cf)중심극한정리(Central limit theorem)

표본의 크기가 n≥30이면 대표본으로 간주하고 모집단의 분포와 관계없이 표본평균 Xˉ\bar의 분포는 N(u,σ2n) N(u,\frac{\sigma ^}) 정규분포에 근사한다.

나) 모집단분포가 정규분포 & 무한모집단(복원추출)에 의한 표본평균의 분포


모집단분포가 정규분포를 따를 때, 표본평균의 분포도 정규분포를 따른다.

N(u,σ2n)N(u,\frac{\sigma ^})

표본평균 Xˉ\bar를 표준화시킨 표준화 확률변수 Z는 표준정규분포 N(0,1)을 따른다.

Z=(ˉX)uσ/nZ = \frac{ \bar(X)-u}{\sigma / \sqrt}

- 표본분포의 평균

선택 가능한 모든 표본들로부터 계산된 평균들의 확률분포를 말한다.

표본평균들의 표본분포의 전체 평균은 모집단의 평균과 같다.

표본평균들의 표본분포는 정규분포를 이룬다.

  • 체비세프 부등식

평균과 분산의 정보를 이용하여 확률추정 → 확률분포가 주어지지 않은 상황에서 확률을 추정

P(Xukσ)11k2P(\left | X-u \right | \leq k\sigma) \geq 1- \frac

표본의 평균으로 모평균이 속해있는 구간을 추정할 때 확률변수의 값이 평균으로부터 표준편차의 일정 상수배 이상 떨어진 확률의 상한값 또는 하한값을 제시해준다.

대푯값(자료 전체를 대표하는 값)

- 분포의 중심위치를 나타내는 측정치이다.

- 대푯값은 분포의 중앙 또는 도수의 집중점과 반드시 일치하지는 않는다.

- 관찰된 자료들이 어느 곳에 가장 많이 모여있는가를 나타내는 것 → 집중화 경향

집중화 경향을 나타내는 수치 = 산출평균, 중위수, 최빈값

계산적인 대푯값: 산술평균, 기하평균, 조화평균, 평방평균

위치적인 대푯값: 중위수, 최빈수, 사분위수, 백분위수

  • 계산적인 대푯값

표본을 가지고 산출하는 것이 아닌, 변수 전체를 사용하여 계산해 내는 값.

한 값이라도 변하게되면 대푯값에 영향을 준다.

극단적인 변수에 의해 영향을 받기 때문에 추상적인 대푯값이라고도 한다.

평균은 이상치에 영향을 많이 받는다.

1) 산술평균(X바)

n개의 수가 있을 때, 이들의 합을 개수로 나눈 것. 우리가 일반적으로 생각하는 평균

1nxi=x1+x2+x3+xnn\frac\sum _{}xi = \frac

2) 기하평균 (G)

변화율이나 비율의 평균을 구할 떄 이용하는 수치로서 모든 측정치를 곱하여 측정치의 수만큼 제곱근을 구한 것이다.

- 극단적인 변수의 값에 영향을 받지만 산술평균보다는 적게 받는다.

- 인구변동률, 물가변동률, 경제성장률과 같은 비율의 대푯값 산정에 많이 쓰인다.

G = x1×x2×x3×xnn \sqrt[n]

3) 조화평균 (H)

n개의 양수에 대하여 그 역수들을 산술평균한 것의 역수를 말한다.

- 추상적인 대푯값으로 극단적인 값의 영향을 받으며, 역수를 갖는 변량 외에는 거의 사용 x

- 단위당 평균 산출에 이용한다.

H = n1xi\frac{\sum \frac}

  • 위치적인 대푯값

1)중위수(Me)

통계집단의 측정값을 크기순으로 배열했을 때 중앙에 위치한 수치를 말한다.

N이 홀수일 경우에는 (n+1)/2번째값이 되고, N이 짝수인 경우에는 (n+1)/2와 n/2의 평균값이 된다.

- 극단적인 값의 영향을 받지 않으며, 중위수에 대한 편차의 절대치의 합은 다른 어떤 수에 대한 편차의 절대치의 합보다 작다.

- 분포모양이 대칭일 경우에는 중앙값과 산술평균은 일치한다.

- 분포모양이 비대칭일 경우에는 산술평균이나 최빈수보다 자료의 대표성을 높일 수 있다.

- 경기변동을 산출할 때 사용한다. 제 2사분위수와 동일한 측도이다.


2)최빈수(Mo)

변량 X의 측정값 중에서 출현도수가 가장 많은 값을 의미한다.

중위수와 마찬가지로 자료 가운데 극단적인 이상점에 영향을 받지 않는다.

- 분포모양이 좌우대칭일 때에는 최빈수가 대체로 대표성이 있으며, 최빈수는 전형적인 값이므로 가장 납득하기 쉬운 대푯값이다.

- 가장 쉽게 알아낼 수 있는 대푯값이며, 같은 관측치를 나타내는 관찰대상의 규모 등을 파악하고자 할 때 유용한 대푯값이다.

- 명목수준의 측정에서 사용하는 통계기법이다.


3)산술평균(Xˉ\bar), 중위수(Me), 최빈수(Mo)의 관계

좌우대칭 분포일 경우: Xˉ\bar = Me(중위수) = Mo(최빈수)

좌측 비대칭 분포일 경우: Xˉ\bar > Me(중위수) > Mo(최빈수)

우측 비대칭 분포일 경우: Xˉ\bar < Me(중위수) < Mo(최빈수)

산포도(분산도)

자료의 분산 상황을 나타내는 수치로 변량 x와 그 분포 F(x)가 주어졌을 때, 그 분포의 중심적 위치의 척도를 m이라고 할 때, F(x)의 m 주위에 흩어져 있는 정도를 나타내는 기술적 지표이다.

- '분산도'라고도 하며, 크기가 고르지 않은 집단의 특징은 평균 외에 자료의 값이 흩어져 있는 정도를 조사하면 더욱 뚜렷해진다.

- 산포도가 클수록 그 분포의 흩어진 폭이 넓고, 산포도가 작을수록 분포의 흩어진 폭이 좁다.

절대적 분포의 산포도: 범위, 사분위수 범위, 평균편차, 사분편차, 분산&표준편차

상대적 분포의 산포도: 변이계수(변동계수), 사분위편차계수, 평균편차계수

  • 절대적인 분포의 산포도

1)범위(Range)

자료의 분산을 측정하는 가장 간단한 방법으로 자료의 관측치 가운데 가장 큰 최댓값과 최솟값의 차이를 말한다.

범위(R) = 자료의 최댓값 - 자료의 최솟값

- 가장 간단히 구할 수 있는 산포도이며, 표본의 크기가 일정하며 그다지 크지 않은 표본을 다룰 때 매우 편리하다.

- 사용되는 분야는 극히 제한을 받으며 공업적 품질관리 등에서 통계적 기법을 다룰 때 사용된다.


2)사분위수 범위(IQR)

사분위수범위(IQR) = Q3 - Q1


3)평균편차(Mean Deviation) <분산과 다름을 유의>

관측치들의 평균값으로부터 떨어져 있는 거리를 말한다.

평균편차란 평균값에 대한 각 변량의 편차의 절댓값을 평균한 값으로 보통은 산술평균에서의 편차의 절댓값의 평균값을 취하고 있다.

MD = 1nxixˉ\frac\sum \left | xi - \bar \right |

- 절댓값이 포함되어 수학적 처리의 복잡성과 통계적 추론에서 이용도가 낮기 때문에 별로 사용하지 않는다.

- 극단적인 값의 영향은 있으나 분산에 비해 적다는 이유로 사용하기도 한다.


4)사분편차(Quartile Deviation)

Q3에서 Q1을 뺀 값에 1/2값이다. 극단적인 값의 영향을 받지 않으며, 대푯값이 중위수일 때 쓰이는 산포도이다.

- 범위의 극단적인 값의 영향을 받아 불안정함을 개선하기 위하여 고안된 산포도로 주로 변수가 많을 때 사용한다.

사분편차 = (Q3 - Q1) / 2


5)분산과 표준편차

분산이 0이면 모든 변량이 평균값에 집중되고 있음을 의미하며,

분산의 값이 크면 클수록 변량이 평균에서 멀리 떨어져 있다는 것을 의미한다.

  • 상대적인 분포의 산포도

1)변이계수(CV)

표준편차를 산술평균으로 나눈 값을 의미한다.

- 추정통계학에서 표본의 크기를 설정하는 데 많이 쓰인다.

- 평균의 차이가 큰 OR 단위가 다른 두 집단의 산포를 비교할 때 이용한다.

- 변이계수의 값이 큰 분포보다 작은 분포가 상대적으로 평균에 더 밀집되어 있는 분포이다.

CV = S / xˉ\bar

2)사분위편차계수

사분편차를 중위수로 나는 몫을 사분위편차계수라 한다.

3)평균편차계수

평균편차를 중위수 또는 산술평균으로 나눈 몫을 평균편차계수라고 한다.

비대칭도

  • 왜도

자료분포의 모양이 어느 쪽으로 얼마만큼 기울어져 있는가, 즉 비대칭 정도를 나타내는 척도이다.

왜도가 0이면 대칭분포를 이룬다(정규분포)

왜도가 0보다 크면 왼쪽으로 기울어진 분포이다.

왜도가 0보다 작으면 오른쪽으로 기울어진 분포이다.

왜도의 절댓값이 클수록 비대칭 정도는 커진다.

- 피어슨대칭도(SkS_)

Sk=XˉMOS3(XˉMe)SS_ = \frac{\bar - M_} \approx \frac- M_)}

SkS_가 0이면 대칭분포를 이룬다

SkS_가 0보다 크면 왼쪽으로 기울어진 분포도이다.

SkS_가 0보다 작으면 오른쪽으로 기울어진 분포도이다.

-1 < SkS_ < 1

  • 첨도

분포도가 얼마나 중심에 집중되어 있는가, 즉 분포의 중심이 얼마나 뾰족한가를 측정하는 것이다.

첨도 = 3이면 표준정규분포로 중첨이라고 한다.

첨도 > 3이면 정점이 높고 뾰족한 모양으로 급첨이라고 한다.

첨도 < 3이면 낮고 무딘 모양으로 완첨이라고 한다.


첨도의 경우 기출문제에 한번 어렵게 등장한 적이 존재

Q.다음중 첨도가 가장 큰 분포는?

1)표준정규분포

2)평균=0,표준편차=10인정규분포

3)평균=0,표준편차=0.1인정규분포

4)자유도가 1인 t분포

첨도는 기본적으로 표준편차를 기준으로 생각하면 된다.

표준편차가 커지면 첨도도 커지고 표준편차가 작아지면 첨도도 작아지게 됨.

평균에서 뾰족하면(꼬리가 얇으면) 첨도가 작고, 평평해지면(꼬리가 두꺼우면) 첨도가 크게 된다.

문제는 t 분포.  t 분포는 자유도에 따라 달라지게 되며, 자유도가 커지면 근사적으로 표준정규분포 근사. 자유도가 1 이면 data 의 수는 2 이므로 표준편차는 상대적으로 매우 커진다.

→ 그러면 거의 균등(균일)분포와 같은 분포 성립.

+ Recent posts