총설

 

  • 과학적 방법

- 과학적 방법의 의의

이론 → 가설 → 관찰 및 검증을 통해 규칙을 발견하고 이를 일반화하고 논리적인 이론으로 정립.

모든 현상과 사건에는 원인이 있으며, 모든 현상을 이해하고 설명할 수 있다.

 


- 과학적 방법의 특징

재생가능성)

동일한 조건하에 동일한 결과가 재현되어야 한다.

 

경험성)

궁극적으로 인간의 감각에 의해 지각될 수 있는 것이어야 한다.→ 경험될 수 있는 것이여야 한다.

 

인과성)

자연발생이 아닌, 어떤 원인에 의해 나타난 결과이며 논리적 설명이 가능해야 한다.

 

객관성)

표준화된 도구와 절차 등을 통해 누구나 납득할 수 있어 한다.

 

상호주관성)

같은 방법을 사용했을 때 같은 해석 또는 설명에 도달할 수 있어야 한다.

 

체계성)

일정한 틀, 순서, 원칙에 입각하여 진행되어야 한다.

 

변화가능성)

기존의 신념이나 연구결과는 언제든지 비판되고 수정될 수 있다.

 

간결성)

적은 수의 변수로 보다 많은 현상을 설명할 수 있어야 한다.

불필요한 내용은 제외하고, 간결하게 설명되어야 한다.

 

반증가능성)

검증하려는 가설이 실험이나 관찰에 의해서 반증될 가능성이 있다는 것을 의미한다.

 

 


- 지식탐구방법

관습에 의한 방법 - 사회적인 습관 & 전통적인 관습

권위에 의한 방법 - 권위자나 전문가의 의견을 인용

 

직관에 의한 방법

- 가설설정 및 추론의 과정 x, 확실한 명제를 토대로 직접적인 인식 추구

과학에 의한 방법

- 가설을 세우고 자료를 수집 & 분석하여 일반적인 이론을 도출.

 

 


- 과학적 방법의 논리전개방식

 

연역법)

이미 참으로 인정된 보편적 원리를 가지고 현상에 연역시켜 설명하는 방법이다.

법칙과 이론으로부터 어떤 현상에 대한 설명과 예측을 도출하는 방법이다.

다른 부분을 실제연구없이 논리적으로 검증한다는 측면에서 경제적 but

최초의 이론 형성 어려움.

'가설설정 → 조작화 → 관찰&경험 → 검증'

ex) 모든 사람은 죽는다 → a는 사람이다. → 그러므로 디진다.

 

 

귀납법)

과학은 관찰과 경험으로부터 시작된다. 개별적인 사실들로부터 일반적인 원리를 이끌어내 보편성과 일반성을 가지는 하나의 결론을 내린다.

어느 정도의 자료만을 가지고도 상당수준의 일반화 법칙이 가능. but 아무런 이론적 배경 없이 현상의 속성을 측정하기 위한 변수들을 의미있게 선택하는데 한계 존재

'주제선정 → 관찰 → 유형의 발견 → 임시결론(이론)'

ex) 까마귀 1은 검다 ———> 까마귀 9999은 검다 → 고로 모든 까마귀는 검다.

 

연역법 귀납법은 서로 대비되는 장 단점으로 인해 상호보완적인 관계를 형성한다.

 

 

  • 과학에 있어서의 가치와 윤리

- 사회과학

일반화가 용이하지 않다.

사고의 기능이 제한 & 명확한 결론 어려움

인간의 형태 & 사고

새로운 이론이라도 기존의 이론과 완전 단절 x

- 자연과학

일반화가 용이하다.

사고의 가능성이 무한정, 명확한 결론 가능

동식물 & 자연현상

기존의 이론과는 전혀 다른 새로운 이론 등장

 

 


- 사회과학의 패러다임

 

 

1) 실증주의적 패러다임

사회현상은 실험과 같은 자연과학의 원리를 사용함으로써 연구되어야 한다고 보며, 사회 내의 법칙 규칙 등을 찾아내고자 한다.

 

- 연구자와 연구대상을 분리하고 가치중립성을 확보함으로써 사회적 실재 파악

- 현상의 원인을

객관적으로 측정하며, 일반화

를 전개

- 경험적인 관찰, 구조화된 양적 방법

 

 


2) 해석주의적 패러다임

개인의 다양한 경험과

사회적 행위의 주관적 의미에 대한 해석과 이해를 통해 설명

하고자 한다.

보편적으로 적용가능한 분석도구가 존재하지 않는다고 주장함으로써 상대주의적인 양상을 보인다.

 

- 인간 행위의 동기나 의도를 문화적 코드 & 사회의 복잡한 규범들의 맥락 속에서 파악하고자 한다.

- 신뢰성과 일반화보다는 타당성을 강조한다.

- 실증주의에 입각한 객관주의적 경험관을 극복하려고 한다. 비조작적, 불개입, 질적인 방법 선호

 


조사연구

 

 

  • 과학적 연구의 과정

문제정립 → 가설설정 → 연구설계 → 자료수집 → 자료분석 → 보고서 작성

 

 

1)문제정립

선행연구분석(문헌연구)는 문제정립 단계와 가설설정 사이단계에서 이루어진다.

 

- 설정된 연구의 적정성 판단기준

설정은 두 개 이상의 변수들 간의 관계를 서술해야 하며, 실증적 연구를 통해 해결될 수 있도록 작성

가능한 한 명백하고 확실한 것이여야 한다.

관찰 가능한 현상과 밀접히 연결되어야 한다.

 

 


2)가설설정

가설 : 둘 이상의 변수 또는 현상 간의 관계를 설명하는 검증되지 않은 명제 또는 연구 문제에 관해 검증할 수 있도록 기술된 잠정적인 응답이다.

 

 


3)연구설계

- 변수의 종류, 변수의 수, 변수의 성격등을 밝힌다.

- 표본추출의 문제, 즉 표본추출의 단위, 종류, 규모를 밝히며 가설의 검증방법과 오차문제도 고려

- 일정한 자료수집방법을 강구해야 한다.

 

 


4)자료수집

분석에 앞서 용이하게 분석될 수 있도록 일정하게 정리

 

 

5)자료분석

분석방법은 연구가설, 연구설계, 변수 간의 관계에 따라 미리 결정되는 것이 보통이다.

 

 

6)보고서 작성

 

  • 과확적 연구의 분석단위

- 분석단위의 요건

적합성, 명료성, 측정 가능성, 비교 가능성

 

 


- 분석단위의 분류

개인) 개개인의 특성을 수집하여 집단과 사회와의 상호작용을 기술할 때 주로 이용한다.

집단) 사회집단을 연구할 경우의 분석단위 → 가족, 학급, 학과등이 해당

 

 

조직&제도) 제도 자체의 특성 또는 이들 조직을 구성하는 개인

사회적 가공물 & 생성물) 인간이 아닌, 사회적 가공물/생성물도 분석단위에 포함된다.

 

 


- 분석단위에 대한 오류

 

생태학적 오류)

분석단위를 집단에 두고 얻은 연구의 결과를 개인에게 동일하게 적용함으로써 발생하는 오류

ex) 학급의 성적이 전반적으로 낮을 때, 어느 학생에 대해서 성적이 좋지못할 것이라고 단정

 

 

개인주의적 오류)

분석단위를 개인에 두고 얻은 연구의 결과를 집단에게 동일하게 적용하는 경우

ex) 학생의 성적이 매우 우수할 때, 학생이 속한 학급의 성적이 좋을 것이라 단정하는 경우

 

 

환원주의적 오류)

넓은 범위의 인간의 사회적 행위를 이해하는데 필요한 변수 또는 개념의 종류를 지나치게 한정

ex) 사회학자의 경우 사회학적 변수로만, 경제학자의 경우 경자학적 변수에 대해서만 고려.

 

 

  • 과학적 조사연구의 유형
- 방법에 의한 분류

질적연구

준거의 틀에 입각하여 인간의 행태를 이해

자연주의적&비통제적

주관적 & 해석적 & 귀납적이다.

일반화할 수 없다.(단일사례연구)

총체론적이다.

소규모 분석에 용이하다.

양적연구

사실이나 원인을 탐구하는 논리실증주의 입장

강제된 측정과 통제된 측정

확증적 & 추론적 & 연역적

일반화할 수 있다.(복수사례연구)

대규모 분석에 용이하다.

 

 

뭐가 더 낫다의 문제가 아닌, 상호보완적인 관점으로 바라봐야한다.

 

 


- 접근방법에 의한 분류

횡단적 연구

<가로>

표본조사

측정이 한 번 이루어진다.

정태적이다.

표본의 크기가 클수록 좋다.

종단적 연구

<세로>

현장조사

측정이 반복적으로 이루어진다.

동태적이다.

표본의 크기가 작을수록 좋다.

 

 

횡단적 연구)

특정 시점에서 집단 간의 차이를 연구하는 방법으로 특정 시점에서 다른 특성을 가지고 있는 집단들 사이의 차이를 측정하는 방법이다.

- 수집된 자료의 일정 시점에서의 한 집단 또는 사례들의 특징을 나타낸다.

- 언론기관의 여론조사나 인구&주택센서스 같은 현황조사를 위한 설계 등에서 사용된다.

 

 

종단적 연구) →

추세조사, 코호트조사, 패널조사

하나의 연구대상을 일정 기간동안 관찰하여 그 대상의 변화를 파악하는데 초점을 둔 기술적 방법.

둘 이상의 시점에서 동일한 분석단위를 연구하는 것으로, 어떤 대상의 동태적 변화 연구에 적합

 

추세조사)

동일한 전체 모집단 내의 변화를 여러시기에 걸쳐 표본을 추출하여 계속적으로 연구

어떤 광범위한 연구상의 특정 속성을 여러 시기를 두고 관찰&비교하는 것

 

 
코호트조사 - 동년배연구)

동기생 & 동시경험집단 연구에 해당한다.

특정 경험을 같이 하는 사람들이 가지는 특성

들에 대해 두 번 이상의 다른 시기에 걸쳐서 비교

ex) 특목고에 입학한 학생들을 대상으로 2012~17년까지의 자존감 변화를 연구하기위해 매년 표본추출 조사시행

 

 

패널조사)

동일집단 반복연구에 해당한다.

'패널'이라 불리는 특정 응답자 집단

을 정해놓고 그들로부터 상당히 긴 시간동안 지속적으로 연구자가 필요로 하는 정보를 획득하는 방법이다.

ex)공공기관의 행정서비스 만족도를 알아보기 위해 동일한 시민들을 표본으로 6개월 단위로 10년간 조사

 

 

 


- 목적에 의한 분류

 

탐색적 연구)

조사설계를 확정하기 이전 연구문제의 발견, 변수규명, 가설도출 등을 위해

예비적으로 실시

보통 연구문제에 대한 사전지식이 부족하거나 개념을 보다 분명히 하기위해 실시한다.

- 정확한 조사연구 및 가설 설계를 위한

명제 정립

을 목적으로 한다.

- 조사설계를 확정하기 이전

타당도를 검증

하기 위해 실시한다.

- 문헌연구, 경험자연구, 사례연구

 

 

기술적 연구)

어떤 현상에 대한 탐구와 명백화, 즉

현상을 정확하게 기술하는 것을 주 목적

으로 한다.

어떠한 사건이나 현상의 크기, 비율, 수준 등에 대한 단순 통계적인 자료를 수집하여 답을 구한다.

- 발생빈도와 비율을 파악할 때 사용, 상관관계 및 상황변화에 대한 각 변수 간의 반응을 파악.

-

탐색적 연구와 달리 연구문제 및 가설을 설정한 후 실시되므로 계획적이고 체계적이다.

- 연구집단에 대한

정확한 정보가 필요할 때

에 주로 활용된다.

- 물가조사, 국제조사 등의 사회적 문제에 대해 정확한 실태파악을 하여 정책적 대안을 마련목적

-

횡단적, 종단적 연구로 구분된다.

 

 

설명적 연구)

어떤 사실과의 관계를 파악하여

인과관계를 규명하거나 미래를 예측하는 조사이다.

'왜'에 대한 대답을 제공하는 조사이며, 현상에 대한 단순기술이 아닌, 인과론적 설명을 전개한다.

사회적 문제의 발생원인을 밝히고, 이를 해결하기 위한 정책대안을 마련하기 위해 널리 사용.

 

 


- 기타연구 유형

 

 

서베이조사)

기술적 연구의 일종으로, 모집단을 대상으로 추출된 표본에 대해 설문지와 같은 표준화된 조사도구를 사용하여 직접 질문

- 전수조사가 아닌, 표본조사에 해당하며, 실험이 아닌 질문지나 면접조사표를 이용

- 엄격한 표본추출절차, 조사&연구의 전체적인 설계 및 실시, 조사 문제의 개념정의 및 특정화.

 

장점

풍부한 자료

정확성이 비교적 높음

자료의 범위가 넓다.

 

단점

획득된 정보는 피상적이다.

실태조사는 시간과 비용이 많이 든다.

고도의 조사지식과 기술을 요구

 

 

사례조사)

특정 사례를 조사하여 문제를 종합적으로 파악하고, 그에 대한 실증적인 분석을 실행

소수 조사대상이 시간의 경과에 따라 어떠한 특징적 변화 양상을 보이는지 →

종단적 연구

기존 문서의 분석이나 관찰 등과 같은 방법으로 자료를 수집하며, 탐색적 목적으로 유용

장점

비교적 소수의 대상에 대한 자연적 발전이나 생활사 연구유용

가치적 측면의 파악이 가능

구체적이고 상세한 연구 유용

관련 변수 모를경우 탐색적 작업으로 사용가능

 

단점

조사의 폭과 깊이가 불분명 → 분석영역의 정확한 설정이 어렵다.

대표성이 불분명하고 일반화 가능성이 낮다.

자료의 신뢰성을 확보하기 어렵다.

조사자의 가치&주관 개입 가능성 높다.

 

조사연구의 설계

 

  • 조사설계의 이해

조사설계란 가설을 평가하기 위한 구조, 계획 및 전략이라고 할 수 있다.

 

- 인과관계의 확인

 

시간적 선후관계)

원인이 되는 사건이나 현상이 시간적으로 결과보다 먼저 발생해야 한다.

 

 

동시변화성(공변성)의 원칙)

원인이 되는 현상이 변화하면, 결과적인 현상도 항상 같이 변화해야 한다.

 

 

비허위적 관계)

외부의 영향력을 배제한 상태에서 순수하게 두 변수만의 관계를 볼 수 있어야 한다.

 

 

  • 조사설계의 타당도

 

내적 타당도)각 변수 사이의 인과관계를 추론하여 그것이 실험에 의한 진정한 변화에 의한 것인지를 판단.

인과조건의 충족 정도를 말한다.

 

 

- 타당도 저해요인

1)외부사건

연구기간 동안 천재지변이나 예상치 않았던 사건과 같이 특정 사건이 일어나는 경우, 환경이 바뀌고 이에 따라 다른 결과가 나타날 수 있다.

 

2)성숙 또는 시간의 경과

시간의 흐름에 따라 연구대상이나 현상에 변화가 발생함으로서 결과에 영향을 미친다.

 

- 외부사건과 성숙은 다른 개념임.

 

3)통계적 회귀

최초의 측정에서 양 극단적인 값을 보인 결과가 이후 재측정의 과정에서 평균값으로 회귀한다.

 

4)검사요인(주시험효과,테스트효과)

측정이 반복되면서 얻어지는 학습효과로 인해 실험대상자의 반응에 영향을 미친다.

 

5)선별요인(선택요인)

실험집단과 통제집단을 선별할 때 편견을 가짐으로써 발생한다.

 

6)도구요인

측정자의 측정도구가 달라짐으로 인해 결과에 영향을 미친다.

 

7)상실요인

조사기간 중 특정 실험대상인이 탈락함으로서 결과에 영향을 미친다.

 

 

- 내적 타당도를 놓이는 방법

무작위할당(Random assigment)

어느 하나의 대상이 실험집단이나 통제집단에 할당될 동일한 기회의 조건을 가진 상태로 두 집단 중 하나에 배정하도록 한다는 것이다. → 양 집단에서 뽑힐 동일한 확률을 부여

 

 

짝짓기(Matching)

실험집단과 통제집단을 동일하게 하기 위해 주요 변수들을 미리 알아내어 분포가 똑같이 나타나도록 처치

모든 특성, 요인, 조건, 변수 등에서 정확하게 서로 똑같은 대상들을 둘씩 골라 집단구분.

 

 


외적 타당도)연구의 결과에 의해 기술된 인과관계가 연구대상 이외의 경우로

확대&일반화될 수 있는 정도

 

 

- 타당도를 저해하는 요인

1)표본의 대표성

연구의 제반 조건들이 모집단의 일반적인 상황과 유사해야 결과 일반화 가능

 

2)실험조사에 대한 반응성(호손 효과)

실험대상자 스스로 실험의 대상이 되고 있음을 인식할 때 나타나는 의식적 반응

 

3)플라시보 효과(위약효과)

거짓약을 진짜 약으로 가장하여 환자에게 복용하였을 때, 환자의 병세가 호전됨;;

 

4)검사의 상호작용 효과

 

5) 표본의 편중

 

 

- 외적 타당도를 높이는 방법

 

표본의 대표성 높이기

무작위할당을 통해 표본자료가 모집단의 특성을 충분히 반영하고 있는지를 확인.

 

조사반응성(반응효과, 호손효과)을 줄인다.

 

 

  • 실험적 조사설계의 이해

실험은 엄격히 통제된 상황에서 두 변수 사이의 인과관계를 검증하는 것이다.

- 연구가설의 진위여부를 확인하는 절차이며, 내적 타당도를 확보하기 위한 노력

- 실험의 검증력을 극대화하고자 하는 시도이다.

 

인과관계를 추리하기 위해

실험집단과 통제집단

으로 나누고, 실험집단에 자극을 가하여 나타난 결과를 통제집단과 비교하는 방식이다.

 

 


- 실험적 조사설계의 구성요소

독립변수의 조작, 무작위할당, 외생변수의 통제

 

 

1) 외생변수의 통제

독립변수와 종속변수 이외의 종속변수에 영향을 미칠 수 있는 변수의 영향을 제거한다.

 

 

외생변수 통제방법

제거: 외생변수로 작용할 수 있는 요인이 실험상황에 개입되지 않도록 하는 것.

 

상쇄

:

외생변수가 작용하는 강도가 동일하지 않은 상황일 때 서로 다른 실험을 실시함으로써 외생변수의 영향을 제거한다.

 

무작위: 조사대상에 양 집단에서 뽑힐 동일한 확률을 부여함으로써 변수를 통제

 

짝짓기:

실험&통제집단을 동일하게 하기 위해 주요 변수들을 미리 알아내어 실험집단과 통제집단에서 그것들의 분포가 똑같이 나타나도록 하는 것이다.

 

 

 

2) 무작위할당

내적 타당도를 확보하기 위해 기본적으로 실험집단과 통제집단의 동질성이 요구된다.

 

 

3) 독립변수의 조작

인과성과 시간적 선행성을 입증하기 위해 독립변수의 조작이 필요하다.

"만약 x가 y의 원인이라면, x의 변화를 유도할 때 y의 변화가 뒤따른다"

 

 

  • 실험적 조사설계의 유형

순수실험설계 > 유사실험설계 > 진실험설계 > 사후실험설계

 

 

1)순수실험설계

실험집단과 통제집단에 대한 무작위할당, 독립변수 조작, 외생변수의 통제 등 실험적 조건 갖춘 설계

내적 타당도를 저해하는 요인들을 최대한 통제한 설계유형 —>

상업적 연구보다 학문적 연구

 

- 통제집단 사전사후 검사설계

무작위할당

으로 실험집단과 통제집단 구분 → 실험진단에 독립변수 조작, 통제집단 조작 x

개입 전 종속변수의 측정을 위한 사전검사 실시 후, 조작 가함

실험집단과 통제집단의 동질성 확보 및 외생변수를 통제.

내적 타당도는 높으나, 외적 타당도가 낮다.

 


- 통제집단 사후검사설계

실험대상자를 무작위로 할당한 후

사전검사 없이 실험집단

→ 조작, 통제집단 → 조작 x

사전검사의 영향을 제거할 수 있으며, 통제집단 전후비교설계에 비해 간단, 비용 단축

종속변수의 측정결과를 단지 독립변수의 조작에 의한 결과라고 단정짓기 어렵다.

사전검사를 하지 않으므로 실험집단과 통제집단의 동질성을 확신할 수 없다.

 


- 솔로몬 4집단 설계

연구대상을 4개의 집단으로 무작위할당 → 통제집단 전후비교설계, 사후비교설계 혼합.

사전검사를 한 2개의 집단 중 하나와 사전검사를 하지않은 2개의 집단 중 하나를 실험처치하여 실험집단으로 하며, 나머지 2개의 집단에 대해서는 통제집단으로 둔다.

실험집단 및 통제집단의 선정과 관리가 어렵고 비경제적이다.

 


- 요인설계

실험집단에 둘 이상의 프로그램을 실시하여 독립변수가 복수인 경우 이용하는 방법이다.

개별 독립변수와 종속변수, 복수의 독립변수와 종속변수의 인과관계를 검증한다.

 

 

 


2)유사실험설계

실험설계의 기본요소 중 한두 가지가 결여된 설계유형이다.

 

무작위할당 등에 의해 실험집단과 통제집단을 동등하게 할 수 없는 경우, 무작위할당 대신 실험집단과 유사한 비교집단을 구성한다.

순수실험설계에 비해 내적 타당도가 낮지만, 현실적으로 실험설계에 있어 인위적인 통제가 어렵다는 것을 감안할 때, 실제 연구에서 더 많이 사용된다.

- 비동일 통제집단

 

- 단순시계열설계

 

- 복수시계열설계

 

- 회귀불연속설계

 

 

 

 


3)전실험설계(원시실험설계)

무작위할당에 의해 연구대상을 나누지 않고, 비교집단 간의 동질성이 없으며, 독립변수의 조작에 따른 변화의 관찰이 제한된 경우에 실시하는 설계유형.

인과적 추론이 어려운 설계로서, 내적&외적 타당도를 거의 통제하지 못한다.

- 1회 사례연구

- 단일집단 사전사후검사설계

- 정태적 집단 비교설계

 

 

 


4)사후실험설계

독립변수를 조작할 수 없거나 연구대상을 조건에 따라 설계하기 어려운 경우에 사용된다.

독립변수를 조작할 수 없는 상태 또는 이미 노출된 상태에서 변수들 간의 관계를 검증

독립변수에 대한 통제가 윤리적으로 바람직하지 않을 때 사용한다.

실제 상황에서 검증하기 떄문에 일반적인 실험설계에 비해서 현실성이 높은 결과를 얻을 수 있다.

 

 

연구의 요소

 

  • 개념

개념은 일정하게 관찰된 현상을 대표할 수 있는 추상적 용어로 표현한 것을 말한다.

 

- 개념의 구체화 과정: 개념의 정의(개념화) → 조작적 정의(조작화) → 현실세계(변수의 측정)

 

 

1)개념적 정의(사전적 정의)

연구대상이 되는 사람 또는 사물의 행태 및 속성, 다양한 사회적 현상들을 개념적으로 정의

하나의 개념을 정의하기 위해 다른 개념을 사용함으로써

그 자체로 추상적 & 일반적 & 주관적 양상

.

단정적이어야 하며, 중의성을 띠어서는 안된다.

추상성으로 인해 사람마다 다르게 나타날 수 있으며, 그로 인해 추상적으로 정의된 개념으로서의 가설에 대해 실증적인 검증을 하기는 어렵다.

 

 


2)조작적 정의

추상적인 개념들을 경험적 & 실증적으로 측정이 가능하도록 구체화한 것이다.

될 수 있는 한 실행 가능하고 관찰 가능한 조작을 좀 더 명확하게 표현한 용어로 구성된 것이며, 확인이 가능한 정의에 불과하다.

조작적 정의의 기능으로 재생가능성을 들 수 있다. → 상당히 실용주의적이며 최종 산물은 수량화!

 

 


3)재개념화

주된 개념에 대한 정리 & 분석을 통해 개념을 보다 명백히 재규정하는 것을 말한다.

개념의 한정성을 높여 관찰 및 측정을 가능하게 하며, 주된 개념적 요소를 알 수 있도록 해준다.

 

  • 이론

현상에 대한 설명과 예측을 목적으로 변수 간의 관계를 밝힘으로써 그 현상에 대한 체계적인 견해를 제공하는 일련의 상호 연결된 개념 및 정의 또는 명제이다.

→ 경험적으로 검증이 가능하고 법칙적인 일반성을 포함하는 일련의 진술

 

- 이론의 기능

1) 과학의 주요방향 결정

2) 현상의 개념화 및 분류화

3) 요약

4) 사실의 예측 및 설명

5) 지식의 확장

6) 지식의 결함 지적.

 

  • 변수

 

- 변수의 종류

독립변수: 연구자에 의해 조작되는 변수이자 원인을 가져다주는 기능을 하는 변수.

종속변수: 독립변수의 원인을 받아 일정하게 전제된 결과를 나타내는 기능을 하는 변수.

 

외생변수

:

독립변수와 종속변수 간에 상관관계가 있는 것처럼 보이지만 실제로는 두 변수가 우연히 어떤 변수와 연결됨으로써

마치 인과적 관계가 있는 것처럼 보이도록 하는 모든 변수

 

매개변수

:

독립변수와 종속변수 간에 직접적인 관련이 없으나 제 3의 변수가 두 변수의 중간에서 매개자 역할을 하여 두 변수 간에 간접적인 관계를 맺도록 하는 변수

→ 독립변수의 결과인 동시에 종속변수의 원인이 된다.

 

선행변수:

인과관계에서 독립변수에 앞서면서 독립변수에 유효한 영향력을 행사하는 제3의 변수

선행변수를 통제해도 독립변수와 종속변수 사이의 관계는 사라지지 않지만, 독립변수를 통제하는 경우에는 선행변수와 종속변수 사이의 관계는 약화되거나 사라진다.

 

억압변수:

두개의 변수 간에 상관관계가 있으나 그와 같은 관계가 없는 것처럼 보이게 하거나 약화시키는 제 3의 변수이다. <있는데 없는것처럼 보이게 함>

두 개의 변수에 대해 각각 긍정적 & 부정적으로 상관되어 변수간의 관계를 억압함으로서 '가식적 영관계'를 형성한다

 

허위변수:

두 개의 변수 간에 상관관계가 없으나 관계가 있는 것처럼 보이게 하는 제 3의 변수

<없는데 있는것처럼 보이게 함>

 

왜곡변수: 두 변수 간의 관계를 어떤 식으로든 왜곡시키는 제 3의 변수이다.

 

통제변수:

독립&종속간의 관계를 명확히 파악하기 위해 그 관계에 미칠 수 있는 제 3변수를 통제하는 변수.

 

조절변수:

독립변수와 종속변수 사이의 관계에서 영향을 미칠 것으로 여겨지는 제 3의 변수.

독립변수가 종속변수에 미치는 영향을 강화해 주거나 약화해 주는 변수이다.

 

  • 가설

 

- 가설설정시 기본조건

연구문제를 해결할 수 있어야 한다.

실증적인 확인을 위해 구체적이어야 하며 현상과 관련성을 가져야한다.

변수로 구성되며, 그들 간의 관계를 나타내고 있어야 한다.

문장을 조건문 형태의 복문으로 나타내야 한다.

표현은 간단명료하며, 경험적&이론적으로 검증 가능해야 한다.

검증결과는 광범위하게 적용될 수 있어야하며, 계량화할 수 있어야 한다.

 


- 가설의 평가기준

1)경험적 검증가능성

2)간결성

3)계량화 가능성

4)입증의 명백성

5)가설 자체의 개연성

6)가치중립성

 


- 가설의 종류

1)식별가설

어떤 사실에 대한 원인의 규명이 아닌, 그 사실의 성질과 기능 그리고 형태를 묘사하기 위한 가설

- 사물의 성질이나 형태의 강도, 크기, 정도, 위치, 분포 등을 제시한다.

- 분석을 통해 사물의 구조 또는 구성요소를 식별하고, 종합을 통해 개개의 요소들을 합함으로써 그것이 의미 있는 어떤 사물임을 식별한다.

 

2)설명적 가설

사실과 사실간의 관계를 설명해주는 가설을 말한다. "왜"에 대한 대답.

- 어떤 두 개 이상의 사물들 간의 관계의 양상에 일정한 규칙성, 즉 공통점이 있음을 말하기도 한다.

- 어떠한 사실의 인관관계, 즉 원인 또는 사실들 간의 시간적 순서, 사실들간의 작용 또는 반작용의 양상이나 크기 등을 말한다.

 

3)연구가설

연구문제에 대한 잠정적 대답이다.

경험적으로 검증 가능하도록 진술한 가설로서 '실험적 가설' 혹은 '과학적 가설'이라고 한다.

 

4)통계적가설

어떤 특징에 대해 둘 이상의 집단 간의 차이나 한 집단 내 또는 몇 집단간의 관계, 표본 또는 모집단 특징의 점추정 등을 묘사하기 위해 설정하는 것이다.

- 통계적 대립가설과 통계적 귀무가설로 구분된다.

 

5)영가설(귀무가설)

처음부터 버릴 것을 예상하는 가설로서, 의미 잇는 차이나 관계가 없는 경우의 가설

- 연구가설은 영가설이 직접 채택될 수 없을때 자동적으로 받아들여지는 가설로서 직접 검증할 필요가 없는 반면, 영가설을 직접 검증을 거쳐야 한다.

 

6)대립가설(작업가설)

영가설에 대립되는 가설로서, 영가설이 거짓일 때 채택하기 위해 설정하는 가설이다.

연구자가 주장하고자 하는 가설로서, 종종 연구가설과 동일시된다.

추정개요

표본의 특성을 나타내는 수치인 통계량을 기초로 하여 모집단의 특성인 모수를 추측하는 방법

  • 바람직한 통계적 추정량 결정기준

1)불편성(Unbiasedness) ⇒ 편의가 없는 것을 의미한다.

→ 어떤 모수의 추정량이 기댓값의 원래 모수가 되는 성질

추정량의 기대치가 추정할 모수의 실제값과 같을 때, 이 추정량은 불편성을 가졌다고 한다.

모수 θ\theta의 추정량을 θ^\hat\theta 으로 나타내면 θ^\hat\theta의 기댓값이 θ\theta가 되는 성질이다.

E(θ^)=θE( \hat{\theta}) = \theta

cf)편의: 추정하고자 하는 모수와 추정량의 기댓값과의 차이

hat표시는 추정량임을 나타내기 위함이다.


2)효율성(Efficiency)

추정량 θ^\hat\theta이 불편추정량이고, 그 분산이 다른 추정량 θ^\hat\theta i에 비해 최소의 분산을 갖는 성질이다.

Var(θ^1)Var(θ^2)일때 θ^2가 더 효율적이다Var(\hat\theta1) \geq Var(\hat \theta2)일 때 \space \hat\theta2가\space 더 \space효율적이다

3)일치성(Consistency)

표본의 크기(n)이 커짐에 따라 추정량 θ^\hat\theta이 확률적으로 모수 θ\theta에 가깝게 수렴하는 성질이다.


4)충분성(Sufficiency)

모수에 대하여 가능한 많은 표본정보를 내포하고 있는 추정량의 성질이다.

점추정

모집단으로부터 추출된 표본을 이용하여 하나의 수치로 모수를 추정하는 것을 말한다.

  • 표준오차(Standard error) = 표본평균의 표준편차

통계량의 표준편차를 표준오차라고 하며, 표준오차는 모집단의 표준편차보다 언제나 작다.

Standard Error[SE]=σnStandard \space Error[SE] = \frac{\sigma}{\sqrt n}

모집단의 표준편차가 커질수록 표준오차 또한 커진다.

표본의 크기가 클수록 표준오차는 작아진다 → 모집단에 근접해지기 때문에

표준오차가 작은 추정량이 더 좋은 추정량이라고 말할 수 있다.

cf) 표본오차 vs 표준오차

표본오차 - 모집단과 표본의 차이를 말하는 것

표준오차 - 통계량의 분포인 표본분포의 표준오차를 의미한다.


  • 모수 점추정

1)모평균의 점추정

모평균의 점추정은 표본평균과 같다. 즉, 모집단 평균 u의 불편추정량은 Xˉ\bar이다.

표본평균Xˉ모평균u표본평균 \bar \Rightarrow 모평균 u

2)모분산/ 모표준편차의 점추정

모분산의 점추정량은 표본분산과 동일하다. 모표준편차의 점추정량은 표본표준편차와 같다.

표본분산S2모분산σ2, 표본표준편차S모표준편차σ표본분산 S^ \Rightarrow 모분산 \sigma^,\space 표본표준편차S \Rightarrow 모표준편차 \sigma

모집단 분산 σ2\sigma^2의 불편추정량은 S2S^2이다.

하지만 모집단 표준편차 σ\sigma의 불편추정량이 표본표준편차 s인 것은 아니다.


3)모비율의 점추정

모비율이란 모집단 속에서 어떤 특정한 속성을 갖는 것의 비율을 의미한다.

표본비율p^모비율p표본비율 \hat \Rightarrow 모비율 p

구간추정

  • 신뢰도와 신뢰구간

신뢰수준 95%라고 함은, 동일한 추정방법을 사용하여 신뢰구간을 100회 반복하여 추정한다면, 95회 정도는 동일한 결과가 나오는 것을 의미한다. 추정량의 분포가 정규분포를 따를 때의 경우가 많음.

신뢰구간

일정한 구간을 제시하여 모수가 포함되었을 것이라고 제시한 구간을 말한다.

95%의 신뢰구간이란 신뢰구간을 100회 반복하여 측정했을 때 95번은 그 구간 내에 모평균이 포함된다는 의미이다.

u의신뢰구간=Xˉ+신뢰계수표준오차u의 신뢰구간 = \bar+-신뢰계수*표준오차

  • 표본의 크기

1)모평균 추정시 표본의 크기

추정식의 양쪽에서 D단위만큼만 벌어지는 구간을 가지려 한다고 가정.

cf) D(오차한계) = 신뢰계수 * 표준오차

오차한계 = 모평균 추정구간의 가운데에서 허용할 최대허용오차

nZ2a/2σ2D2n \geq \frac}*\sigma^2}}

2)모비율 추정시 표본의 크기

모집단의 추정에서 모비율을 모르고 있는 것이 일반적이다.

만약 모비율에 대해 대체적인 값을 알고 있으면 이를 이용하고, 불가능하다면 소규모의 예비조사로 대체적인 값을 구한다.

이값마저 알 수 없다면 p^\hat=1/2를 사용하여 표본의 크기를 결정한다.

np^(1p^)(Za/2D)2n\geq\hat(1-\hat)(\frac}})^2

표본크기 결정요인

- 신뢰도

일정한 오차의 범위 내로 신뢰구간을 설정하고자 할 때 신뢰도에 의해서 Z나 t가 결정되기 때문에 신뢰도를 높일수록 표본의 크기는 커야한다.

- 표준편차

모집단의 분산 또는 표준편차가 클수록 표본의 크기는 커야한다.

- 오차의 크기

오차를 적게 하기를 원하면 표본의 크기를 크게 해야 한다.

  • 모평균의 신뢰구간

1)모분산을 알고있을 경우

XˉZa/2σnuXˉ+Za/2σn\bar X - Z_\frac{\sigma}{\sqrt n} \leq u \leq \bar X + Z_\frac{\sigma}{\sqrt n}

2)모분산을 모르는 대표본(n≥30)일 경우

XˉZa/2SnuXˉ+Za/2Sn\bar X - Z_\frac{\sqrt n} \leq u \leq \bar X + Z_\frac{\sqrt n}

3)모분산을 모르는 소표본(n<30)일 경우

소표본일 경우에는 정규분포가 아닌, 자유도가 N-1인 T분포가 된다.

Xˉta/2SnuXˉ+ta/2Sn\bar X - t_\frac{\sqrt n} \leq u \leq \bar X + t_\frac{\sqrt n}

  • 모평균 차이의 신뢰구간

1)모분산을 알고있을 경우

두 모집단의 분포가 정규분포를 하고, 모분산이 알려진 경우 Z통계량을 이용

(Xˉ1Xˉ2)Za/2σ12n1+σ22n2u1u2(Xˉ1Xˉ2)+Za/2σ12n1+σ22n2(\bar X_1 -\bar X_2)-Z_ \sqrt {\frac{\sigma^2_1}+\frac{\sigma^2_2}} \leq u_1-u_2\leq(\bar X_1 -\bar X_2)+Z_ \sqrt {\frac{\sigma^2_1}+\frac{\sigma^2_2}}

2)모분산을 모르는 대표본(n≥30)일 경우

대포본이지만 두 모집단을 모르고 있을 경우, 모분산 대신 표본분산 사용

(Xˉ1Xˉ2)Za/2S12n1+S22n2u1u2(Xˉ1Xˉ2)+Za/2S12n1+S22n2(\bar X_1 -\bar X_2)-Z_ \sqrt {\frac{ S^2_1}+\frac} \leq u_1-u_2\leq(\bar X_1 -\bar X_2)+Z_ \sqrt {\frac+\frac}

3)모분산을 모르는 소표본(n<30)일 경우

소표본에서 두 모분산을 모르지만 같다는 것을 알고 있을 경우 자유도가 n1+n2-2인 t분포 이용.

(Xˉ1Xˉ2)ta/2, n1Spσ12n1+σ12n1u1u2(Xˉ1Xˉ2)+ta/2, n1Spσ12n1+σ12n1(\bar X_1 -\bar X_2)-t_,\space_S_p \sqrt {\frac{\sigma^2_1}+\frac{\sigma^2_1}} \leq u_1-u_2\leq(\bar X_1 -\bar X_2)+t_, \space _S_p \sqrt {\frac{\sigma^2_1}+\frac{\sigma^2_1}}
  • 모비율 / 모비율 차이의 100(1-a)% 신뢰구간

1)모비율의 신뢰구간

모비율 p의 추정량은 표본비율이며 이항분포의 정규근사를 이용한 Z통계량을 이용한다.

p^Za/2p^(1p^)npp^+Za/2p^(1p^)n\hat - Z_\sqrt{\frac{\hat(1-\hat)}} \leq p \leq \hat + Z_\sqrt{\frac{\hat(1-\hat)}}

2)두 모비율 차이의 신뢰구간

p^1p^2Za/2p1^(1p1^)n1+p2^(1p2^)n2p^1p^2p^1p^2+Za/2p1^(1p1^)n1+p2^(1p2^)n2 \hat_ - \hat_-Z_\sqrt{\frac{\hat}(1-\hat})}}+\frac{\hat}(1-\hat})}}} \leq \hat_ - \hat_ \leq \hat_ - \hat_+Z_\sqrt{\frac{\hat}(1-\hat})}}+\frac{\hat}(1-\hat})}}} 

확률 및 확률변수

  • 확률

- 확률의 정의

  1. 고전적 방법

    어떤 실험의 가능한 결과가 모두 n가지이고, 각 결과가 나타날 가능성이 모두 동일하고, 서로 중복되지 않는다고 할 때 사상 A에 속하는 결과가 a가지이면 사건 A의 확률은 a / n으로 정하는 법

  1. 경험적 확률(상대도수에 의한 방법)

    충분히 많은 횟수의 반복 시행에서 어떤 사상의 확률로 정하는 방법.

    경험적인 결과에 기초를 두어 정하는 확률을 흔히 경험적 확률이라고 한다.


- 표본공간과 사상

표본공간:

한 실험에서 나타날 수 있는 가능한 모든 결과의 집합 S이다. 즉, 시행에 의하여 일어날 수 있는 가능한 모든 결과로 된 집합을 말한다.

사상:

표본공간의 부분집합을 의미한다.

공사상: 표본공간의 어떤 원소도 갖고 있지 않은 사상이다.

여사상: 사상 A가 일어나지 않을 사상으로 A여집합으로 나타낸다.

배반사상: A와 B 두 사상이 동시에 일어날 수 없는 사상이다. (A와B의 교집합 X)

독립사상: A와 B 두 사상이 서로 영향을 미치지 않으면 두 사상 A와 B는 독립이다.

독립: P(AB)=P(A)P(B)P(A \cap B) = P(A)P(B)


- 조건부 확률

한 사건이 일어날 것을 전제로 다른 사건이 일어날 확률에 관한 것으로 일반적으로

P(AB)P(BA) P(A\mid B) \neq P(B\mid A) 

조건부확률에서는 두 변인이 상호독립인지가 매우 중요한 포인트이다.

  • 순열과 조합

- 순열

n개의 원소로 된 집합으로부터 한 번에 x개의 원소를 선택하여 이들 간에 순서를 정하여 늘어놓는 방법을 순열이라고 한다.

- 조합

n개의 원소로 된 집합으로부터 한 번에 x개의 원소를 순서에 관계없이 비복원으로 선택하는 방법을 조합이라고 한다.

- 중복조합 → 은근히 헷갈리는 단원

서로 다른 m개 중에서 중복을 허락하여 k개를 선택하는 조합의 수

  • 확률변수

확률변수는 어떤 실험의 단순 사상들에 각각 하나의 숫자를 부여한 것이다. 또한 확률변수는 그것이 가지는 숫자들의 성질에 따라 이산확률변수와 연속확률변수로 분류할 수 있다.

- 이산확률변수

확률변수가 어떤 구간 내의 특정한 값만을 취하는 경우를 말한다.

- 연속확률변수

어떤 구간 내의 임의의 값을 취할 확률을 말한다.

1)기댓값

평균과 같은 것으로 확률변수가 취할 수 있는 각 값에 해당하는 확률을 곱하여 모두 더하는 것이다.

실험을 지속적으로 반복했을 때 평균적으로 기대할 수 있는 값으로 확률변수의 중심화 경향치를 나타내는 특성치를 말한다.

E(X)=[xp(x)]E(X) = \sum [x * p(x)]


2)분산

확률변수의 산포도를 나타내는 특성치가 분산과 표준편차이다.

Var(X)=x2p(x)[E(x)]2Var(X) = \sum x^p(x) - [E(x)]^

Var(X)=E(x2)[E(x)2]Var(X) = E(x^) - [E(x)^]

- 분산의 성질

Var(X + Y) = Var(X) + Var(Y) + 2Cov(X,Y) <Cov는 공분산을 의미한다>

Var(X - Y) = Var(X) + Var(Y) - 2Cov(X,Y)

확률분포

  • 확률분포 일반

확률변수의 성격을 나타내는 것으로, 표본공간에 나타나는 모든 값들과 그 값에 대응하는 확률을 동시에 표시한 것을 말한다.

- 이산확률분포

확률변수가 이산변수인 경우로 이항분포, 포아송분포, 초기하분포, 기하분포, 다항분포

- 연속확률분포

확률변수가 소수점의 값을 포함하는 실수영역으로, 정규분포, 표준정규분포, T,F,카이제곱,지수분포

  • 이산확률분포

1)이항분포

확률실험에서 나타날 수 있는 기본결과가 두 가지뿐일 경우이다.

어떤 시행에서 사건 A가 일어날 확률을 p, 사건 A가 일어나지 않을 확률을 q(q= 1-p)라 하고 이 시행을 독립적으로 n회 반복할 때, 그 중에서 x회만 A가 일어날 확률은

B(n,p) = nxCpxqnx_^\textrmp^q^

- p가 1/2에 가까워짐에 따라 그래프는 좌우대칭의 산 모양 곡선이 된다.

- p < 0.1이고 n > 50일 때는 포아송분포에 근사된다.

- 이항분포의 정규근사치

np ≥5 또는 n(1-p) ≥ 5일 경우 평균이 np이고 분산이 np(1-p)인 정규분포와 비슷한 모양이 된다.

시행횟수 n이 클 때에는 정규분포를 이용하여 이항확률의 근사치를 구할수가 있다.


2)베르누이 시행

각 시행의 결과는 상호 배타적인 두 사건으로 구분된다. 즉, 성공 또는 실패이다.

각 시행은 서로 독립적이다.

베르누이 시행을 n번 독립적으로 반복시행했을 때의 확률변수 X를 성공(X=1) 또는 실패(X=0)이라 하면 X의 분포는 이항분포를 따르며 확률밀도함수 f(x)는 다음과 같다.

f(x)=px(1p)nx=pxqnxf(x) = p^(1-p)^ = p^q^


3)포아송분포

일반적으로 단위시간, 단위면적 또는 단위공간 내에서 발생하는 어떤 사건의 횟수를 확률변수 X라 하면, 확률밀도 X는 람다값을 모수로 갖는 포아송분포를 따른다고 한다.

f(x)=eΛΛxx!f(x) = \frac\Lambda^}

- 포아송분포의 성립조건

독립성:

발생하는 사건의 횟수는 서로 중복되지 않는다.

비례성:

사건이 한번 발생할 확률은 시간길이 또는 면적에 비례한다.

비집락성:

짧은 시간 동안 또는 작은 영역 내에서 사건이 두 번 이상 발생할 확률은 매우 작기 때문에 무시할 수 있다.


4)기하분포

단 한번의 성공을 위해 실패를 거듭해야 하는 경우 기하분포를 이용한다.

f(x)=pqx1,x=1,2,3...q=1pf(x) = pq^, x= 1,2,3... q=1-p

E(X) = 1/ P , Var(X) = q / p^2

  • 연속확률분포

1)정규분포

표본을 통한 통계적 측정 및 가설검증이론의 기본, 여러가지 다른 분포에 대해서 근사값을 제공

특징)

평균과 표준편차에 의해 그 위치와 모양이 결정된다.

첨도는 3이며, 왜도는 0이다. cf)왜도 - 비대칭 정도, 첨도 - 분포의 중심이 얼마나 뾰족한지.

산술평균(Xˉ\bar) = 중위수(MeM_) = 최빈값(MoM_)

정규분포곡선은 x축과 맞닿지 않으므로 확률변수가 취할 수 있는 값의 범위는 무한대이다.

이항분포의 확률 근사치를 계산하는데 매우 유용하다.

개별치의 확률분포가 정규분포가 아니더라도, 표본이 커질수록 그 분포는 정규분포에 가까워진다.


2)표준정규분포

다른 평균과 표준편차를 가진 정규분포를 비교하기 위해서는 표준화를 해주어야 한다.

- 표준화(Standarization)

평균이 0이고, 표준편차가 1이 되도록 해주는 작업이다.

Z=Xuσ, Z N(0,1)Z = \frac{\sigma},  Z\sim  N(0,1)


3)T-분포

자유도에 따라 모양이 변하며, 0을 중심으로 하는 좌우대칭형, 자유도가 무한대일 경우에는 표준정규분포에 근사한다.

- 특징

평균은 0이고, 평균을 중심으로 좌우대칭이다.

일반적으로 분산은 1보다 크나, 표본수가 커질수록 1에 접근한다.

자유도에 따라 제각기 다른 모형이며, 자유도가 클수록 중심부가 더 솟은 모양이 된다.

정규분포보다 꼬리가 두꺼우며 첨도는 3보다 크다.

표본의 크기 n이 30보다 작을 때 사용

모평균, 모평균의 차 또는 회귀계수의 추정&검정에 주로 사용된다.


4)F-분포

확률변수 X가 자유도(m,n)인 F-분포를 따를 때 다음과 같이 표현된다.

- 특징

왼쪽으로 비스듬히 기울어져 있지만 그 정도는 자유도가 증가함에 따라 대칭성에 가까워진다.

항상 양의 값을 가지며 오른쪽 긴 꼬리 비대칭분포 형태를 이루고 있다.

표본분산과 모분산과의 관계를 이용하여 모분산비에 대한 추론을 하는 데 사용한다.

두 집단의 분산동질성 검정에 사용된다.

확률변수 X가 F(m,n)을 따를 때 1/X 분포는 F(n,m)을 따른다.


5)카이제곱 분포

자유도의 크기에 따라 분포의 모양이 변하고, 자유도가 커지면 대칭에 가까워지는 분포이다.

- 특징

왼쪽으로 기울어진 연속형 분포이며 자유도가 커질수록 오른쪽으로 폭넓게 기울어지는 모양을 나타내며 정규분포에 근접한다.

Z~N(0,1)의 제곱 Z2Z^2는 자유도가 1인 카이제곱분포를 따르며,

자유도가 N인 카이제곱분포의 평균은 n이며, 분산은 2n이다.

모분산이 특정한 값을 갖는지 여부를 검정하는데 사용되며 → 독립성 검정 & 적합성 검정에 사용.

  • 표본분포와 중심극한정리

- 표본분포

모집단으로부터 채택된 일정한 크기의 표본들을 대상으로 분석한 결과 타나난 통계량들의 분포

가) 모집단분포가 정규분포가 아닐 때 표본평균의 분포


모집단의 분포가 정규분포가 아닐 경우 표본평균 Xˉ\bar가 정규분포를 따른다고 할 수 없다.

하지만, 표본의 크기가 충분힐 클 때는 Xˉ\bar의 분포는 정규분포로 볼 수 있다. → 중심극한정리

cf)중심극한정리(Central limit theorem)

표본의 크기가 n≥30이면 대표본으로 간주하고 모집단의 분포와 관계없이 표본평균 Xˉ\bar의 분포는 N(u,σ2n) N(u,\frac{\sigma ^}) 정규분포에 근사한다.

나) 모집단분포가 정규분포 & 무한모집단(복원추출)에 의한 표본평균의 분포


모집단분포가 정규분포를 따를 때, 표본평균의 분포도 정규분포를 따른다.

N(u,σ2n)N(u,\frac{\sigma ^})

표본평균 Xˉ\bar를 표준화시킨 표준화 확률변수 Z는 표준정규분포 N(0,1)을 따른다.

Z=(ˉX)uσ/nZ = \frac{ \bar(X)-u}{\sigma / \sqrt}

- 표본분포의 평균

선택 가능한 모든 표본들로부터 계산된 평균들의 확률분포를 말한다.

표본평균들의 표본분포의 전체 평균은 모집단의 평균과 같다.

표본평균들의 표본분포는 정규분포를 이룬다.

  • 체비세프 부등식

평균과 분산의 정보를 이용하여 확률추정 → 확률분포가 주어지지 않은 상황에서 확률을 추정

P(Xukσ)11k2P(\left | X-u \right | \leq k\sigma) \geq 1- \frac

표본의 평균으로 모평균이 속해있는 구간을 추정할 때 확률변수의 값이 평균으로부터 표준편차의 일정 상수배 이상 떨어진 확률의 상한값 또는 하한값을 제시해준다.

대량 데이터에 따른 성능

대량의 데이터가 하나의 테이블에 집약되어 있고 하나의 하드웨어 공간에 저장되어 있으면 성능저하를 피하기 힘들다.

  • 로우체이닝(Row chaining)현상

로우길이가 너무 길어서 데이터 블록 하나에 데이터가 모두 저장되지 않고 두개 이상의 블록에 걸쳐 하나의 로우가 저장되어 있는 형태.

  • 로우마이그레이션(Row migration)현상

데이터 블록에서 수정이 발생하면 수정된 데이터를 해당 데이터 블록에서 저장하지 못하고 다른 블록의 빈 공간을 찾아 저장하는 방식.

대량 데이터 처리방법 → 파티셔닝 - Partitioning

- LIST Partitoning

지점, 사업소, 사업장, 핵심적인 코드값 등으로 PK가 구성되어 있고 대량의 데이터가 있는 테이블이라면 LIST Partitioning 적용가능

하나의 테이블에서 데이터를 처리하기에는 SQL문장의 성능이 저하되어 지역을 나타내는 사업소코드 별로 적용

→ 대용량 데이터를 특정값에 따라 분리 저장할 수는 있으나 RANGE와 같이 데이터 보관주기 따라 쉽게 삭제하는 기능은 제공될 수 없다.

- RANGE Partitioning

요금테이블에 PK가 요금일자+요금번호로 구성되어 있는 경우. 요금의 특성상 항상 월단위로 데이터 처리를 하는 경우가 많으므로 PK인 요금일자의 년+월을 이용하여 12개의 파티션 테이블 생성.

가장많이 사용되는 파티셔닝 기법이며 대상 테이블이 날짜 또는 숫자값으로 분리가 가능하고 각 영역별로 트랜잭션이 분리된다면 RANGE를 사용하는 것이 유리하다.

RANGE 파티셔닝은 데이터보관주기에 따라 테이블에 데이터를 쉽게 지우는 것이 가능하므로 테이블 관리가 매우 용이하다.

- HASH Partitioning

지정된 Hash 조건에 따라 해쉬 알고리즘이 적용되어 테이블이 분리되며 설계자는 테이블에 데이터가 정확하게 어떻게 들어있는지 알 수 없다.

분산 데이터베이스와 성능

데이터베이스를 연결하는 빠른 네트워크 환경을 이용하여 데이터베이스를 여러 지역 여러 노드로 위치시켜 사용성/성능 등을 극대화 시킨 데이터베이스라고 정의할 수 있다.


  • 분산데이터베이스의 투명성(Transparancy)

- 분할투명성

하나의 논리적 Relation이 여러 단편으로 분할되어 각 단편의 사본이 여러 site에 저장

- 위치 투명성

사용하려는 데이터의 저장 장소 명시 불필요. 위치정보가 System catalog에 저장되어 있어야 한다.

- 지역사상 투명성

지역 DBMS와 물리적 DB사이의 Mapping보장. 각 지역시스템 이름과 무관한 이름 사용가능

- 중복 투명성

DB객체가 여러 site에 중복되어 있는지 알 필요가 없는 성질

- 장애 투명성

구성요소(DBMS, Computer)의 장애에 무관한 Transaction의 원자성 유지

- 병행 투명성

다수 Transaction 동시 수행시 결과의 일관성 유지


  • 분산 데이터베이스 적용기법

- 테이블 위치 분산

테이블 위치 분산은 테이블의 구조는 변하지 않는다. 설계된 테이블의 위치를 각각 다르게 위치시키는 것이다.

ex) 자재품목은 본사에서 구입하여 관리하고 각 자사별로 자재품목을 이용하여 제품을 생산할 경우

테이블별 위치 분산은 정보를 이용하는 형태가 각 위치별로 차이가 있을 경우에 이용한다. 테이블의 위치가 위치별로 다르므로 테이블의 위치를 파악할 수 있는 도식화된 위치별 DB문서가 필요하다.

- 테이블 분할(Fragementation) 분산

단순히 위치만 다른 곳에 두는 것이 아니라 각각의 테이블을 쪼개어 분산하는 방법이다. 테이블 분할 분산 방식의 종류로는 수평&수직 분할이 있다.

- 수평분할을 이용하는 경우는 각 지사(Node)별로 사용하는 로우(Row)가 다를때 이용한다.

각 지사에 존재하는 테이블에 대해서 통합처리를 해야하는 경우는 조인(Join)이 발생하여 성능 저하가 예상되므로 통합처리 프로세스가 많은지를 먼저 검토한 이후에 많지 않은 경우에 수평분할해야한다.

한 시점에는 한 지사(Node)에서 하나의 데이터만이 존재하므로 데이터의 무결성은 보장되는 형태


- 수직분할을 이용하는 경우는 각 지사(Node)에 따라 테이블 칼럼을 기준으로 칼럼을 분리한다.

각각의 테이블에는 동일한 Primary key구조와 값을 가지고 있어야 한다.

테이블 전체 칼럼 데이터를 보기 위해서는 각 지사(Node)별로 흩어져 있는 테이블들을 조인(join)하여 가져와야 하므로 가능하면 통합하여 처리하는 프로세스가 많은 경우에는 이용하지 않는다.

- 테이블 복제(Replication) 분산

동일한 테이블을 다른 지역이나 서버에서 동시에 생성하여 관리하는 유형이다.

- 부분복제: 마스터 DB에서 테이블의 이불의 내용만 다른 지역 or 서버에 위치시키는 방법

통합된 테이블을 한군데(본사)가 가지고 있으면서 각 지사별로는 지사에 해당된 로우를 가지고 있는 형태이다. 지사에 존재하는 데이터는 반드시 본사에 존재하게 된다.

본사 데이터 = 지사 데이터들의 합

보통 지사에 데이터가 먼저 발생하고 본사에 데이터는 지사에 데이터를 이용하여 통합하여 발생된다.

- 광역복제

통합된 테이블을 한군데(본사)에 가지고 있으면서 각 지사에도 본사와 동일한 데이터를 모두 소유

본사에서 코드테이블에 데이터에 대해 입력, 수정, 삭제가 발생하고 각 지사에서는 코드데이터를 이용하는 프로세스가 발생한다. 즉 본사에서는 데이터를 관리하고 지사에서는 이 데이터를 읽어 업무프로세스를 발생시키는 것이다.

부분복제의 경우는 지사에서 데이터에 대한 입력, 수정, 삭제가 발생하여 본사에서 이용하는 방식이 많은 반면 광역복제의 경우에는 본사에서 데이터가 입력, 수정, 삭제가 되어 지사에서 이용하는 형태가 차이점이다.

- 테이블 요약(Summarization)분산

지역간에 또는 서버 간에 데이터가 비슷하지만 서로 다른 유형으로 존재하는 경우이다.

- 분석요약(Roll up replication)

각 지사별로 존재하는 요약정보를 본사에 통합하여 다시 전체에 대해서 요약정보를 산출하는 방법

- 통합요약(Consolidation replication)

각 지사별로 존재하는 다른 내용의 정보를 본사에 통합하여 다시 전체에 대해서 요약정보를 산출

- 분석요약과 통합요약의 차이점

EX)제품별 판매실적이라는 테이블이 존재

분석요약에서는 지사1과 지사2에도 동일한 제품이 취급된다. 이를 본사에서 판매실적을 집계할 경우 통합된 판매실적을 관리하는 것

통합요약의 경우에는 각 지사는 타지사와 다른 요약정보를 가지고 있고 본사에는 각 지사의 요약정보를 단지 데이터를 같은 위치에 두는 것으로 통합하여 전체에 대한 요약정보를 가지고 있다.

성능 데이터 모델링 개요

- 성능 데이터 모델링 데이터베이스 성능향상을 목적으로 설계단계의 데이터 모델링 때부터

정규화, 반정규화, 테이블통합, 테이블분할, 조인구조, PK, FK

등 여러 가지 성능과 관련된 사항이 데이터 모델링에 반영될 수 있도록 하는 것으로 정의할 수 있다

 

  • 성능 데이터 모델링 고려사항
  1. 정규화를 정확하게 수행한다.
  1. DB 용량산정을 수행한다.
  1. DB에서 발생되는 트랜잭션의 유형을 파악한다.
  1. 용량과 트랜잭션의 유형에 따라 반정규화를 수행한다.
  1. 이력모델의 조정, PK/FK 조정, 슈퍼타입/서브타입 조정 등을 수행한다.

 

정규화, 반정규화와 성능

정규화만을 강조하다 보면 성능의 이슈가 발생될 수 있고 반정규화를 과도하게 적용하다 보면 데이터 무결성이 깨질 수 있는 위험이 증가하게 된다. → 판단의 주의가 요구된다

 

- 정규화(Normalization)

정규화 수행 모델은 데이터의 입력/수정/삭제할 때 일반적으로 반정규화된 테이블에 비해 처리 성능이 향상된다. 단 데이터를 조회할 때에는 처리 조건에 따라 조회 성능이 향상될 수도 있고 저하될 수도 있다. →

정규화를 수행하면 무조건 조회성능이 저하된다는 것은 아니다.

 

  • 함수적 종속성(Fuctional dependency)

데이터들이 어떤 기준값에 의해 종속되는 현상을 지칭하는 것이다. 기준값을 결정자(Determinant)라고 하고 종속되는 값을 종속자(Dependent)라고 한다.

어떤 사람의 주민등록번호가 신고되면 그 사람의 이름, 출생지, 호주가 생성되어 단지 하나의 값만을 가지게 된다. → "주민등록번호가 이름, 출생지, 호주를 함수적으로 결정한다."

💡
주민등록번호 → (이름, 출생지, 호주)
 

 

cf) 논리적 데이터 모델링

2021.04.19 - [Certification_Note/SQL-D] - 제1장. 데이터 모델링의 이해(추가자료) - 논리적 모델링

 

제1장. 데이터 모델링의 이해(추가자료) - 논리적 모델링

dasp를 공부하면서 논리적 데이터모델링 정리부분이 있어 부록으로 올립니다. 데이터 모델링 이해 논리 데이터 모델링의 핵심은 업무에서 필요로 하는 데이터에 존재하는 사실을 인식, 기록하는

wierd-ds.tistory.com

 

- 반정규화(Denormalization)

성능을 향상시키기 위해 정규화된 데이터 모델에서 중복, 통합, 분리 등을 수행하는 모든 과정

  • 반정규화를 고려하는 상황
  1. 자주 사용되는 테이블에 접근하는 프로세스의 수가 많고 항상 일정한 범위만을 조회하는 경우에 검토한다.
  1. 테이블에 대량의 데이터가 있고 데이터 범위를 자주 처리하는 경우에 처리범위를 일정하게 줄이지 않으면 성능을 보장할 수 없을 경우에 반정규화를 검토한다.
  1. 통계성 프로세스에 의해 통계 정보를 필요로 할 때 별도의 통계테이블을 생성한다.
  1. 테이블에 지나치게 많은 조인이 걸려 데이터를 조회하는 작업이 기술적으로 어려울 경우 반정규화를 고려한다.

 


  • 반정규화의 대상에 대해 다른 방법으로 처리할 수 있는지 검토
  1. 뷰를 사용하여 조회의 성능을 향상시킬 수 있는가
  1. 클러스터링을 적용 or 인덱스를 조정함으로써 성능을 향상시킬 수 있는가
  1. 파티셔닝을 적용하여 성능을 향상시킬 수 있는가
  1. 응용 애플리케이션의 로직을 변경하여 성능을 향상시킬 수 있는가

 

cf)물리적 데이터 모델링

 

 

dasp에서 공부하던 요약자료를 부록형식으로 올립니다.

4.1 - 물리 데이터 모델링의 이해

물리적 모델 정의

물리 데이터

모델이란 논리적 모델을 특정 데이터베이스로 설계함으로써 생성된 데이터를 저장할 수 있는 물리적인 스키마를 말한다

.

데이터 모델의 엔터티와 서브타입은 논리적인 집합이며, 만약 관계형 데이터베이스로 설계한다면 이 단계에 와서 물리적인 테이블로 확정한다.

 

물리 데이터 모델링은 논리 데이터 모델을 사용하고자 하는 각 DBMS의 특성을 고려하여 데이터베이스 저장 구조로 변환하는 것이다.

 

물리 데이터 모델 의의

물리적 데이터 모델링은 관계 데이터 모델링(RDM)이라고도 한다.

사전에 작성된 논리적 데이터 모델을 각각의 관계형 데이터베이스 관리시스템의 특성, 기능, 성능 등을 고려하여 데이터베이스의 물리적인 구조를 작성해나가는 과정이다.

→ 논리적 데이터베이스 모델에서 도출된 내용 변환을 포함하여

데이터의 저장 공간, 데이터의 분산, 데이터 저장 방법 등을 함께 고려

하는 단계이다.

 

논리 데이터 모델-물리 데이터 모델

분산 DB구축, 물리 데이터 모델 비교, 물리적 환경의 변화, 물리적 모델의 형상관리

가. 분산 데이터베이스 구축 시

분산 데이터베이스를 구축하고자 할 경우 노드별로 자신이 원하는 형태의 물리적 모델을 생성하고자 할 때 적용하는 경우이다.


나. 물리 데이터 모델 비교

각자 나름대로의 특징을 가지고 있는 여러 개의 물리적 모데을 생성하여 종합적인 비교 검토를 하기 위하여 적용하는 경우이다.


다. 물리적 환경의 변화

논리적인 모델에는 변화가 발생하지 않지만 물리적인 환경에서는 변경이 발생했을 경우 기존의 물리적 모델을 새로운 목표 물리적 모델로 개선하고자 할 때 적용하는 경우이다.


라. 물리적 모델의 형상 관리

물리적 모델이 세월의 흐름에 따라 조금씩 변해갈 경우 그 이력을 관리할 목적으로 여러 개의 버전을 보유하고자 할 때 사용하는 경우이다.

 

4.2 - 물리 요소 조사 및 분석

시스템 구축 관련 명명 규칙

사내의 시스템 구축과 관련된 명명 규칙을 파악하여 물리 데이터 모델의 각 요소의 내용에 이를 적용

 

하드웨어 자원

가. CPU

중앙처리 장치의 성능과 집중적인 부하가 발생하는 시간 등을 파악한다.

나. MEMORY

전체 메모리의 규모 및 시스템이 사용하는 메모리 영역을 포함하여 사용 가능한 메모리 영역을 파악한다

다. DISK

전체 디스크의 크기, 분할된 형태, 현재 디스크 활용률 등을 파악하고 사용 가능한 공간을 확인한다.

라. I/O Controller

현재 입/출력 컨트롤러의 성능 및 적절하게 운용되고 있는가를 파악한다.

마. Network

현재 처리 가능한 속도, 집중적인 부하가 발생하는 시간대, 동시접속 최대 가용 사이트 수

 

운영체제 및 DBMS 비전 파악

운영체제의 관련 요소를 파악하고 적절하게 관리되고 있는가 파악한다. (인스턴스 관리기법)

 

DBMS 파라미터 정보 파악

환경적용 단계에서 가장 중요하게 고려하는 단계이다.

저장공간 관리 기법과 메모리 관리기법 등에 관련된 파라미터에 관해서 주의를 기울인다. 쿼리에 사용하는 옵티마이저의 운영 방법 등도 중요

 

DB 운영과 관련된 관리요소 파악

사용자 관리 기법 및 정책, 백업/복구 기법 및 정책, 보안 관리 정책

 

4.3 - 논리물리변환

 

데이터 표준 적용

논리 데이터 모델링 과정에서 정의된 엔터티, 속성, 관계들은 여러가지 기준으로 물리 데이터 모델로 변환하다. 이과정에서 필수적으로 엔터티명에 해당하는 테이블명을 생성하고, 속성 또는 관계에 해당하는 칼럼명을 생성한다. 이러한 이름을 변환하는 과정에서 전사적으로 미리 생성된 데이터 표준을 따르게 된다.

 

- 데이터표준 적용대상

DB:

테이블의 집합으로 통합 모델링 단계의 주제 영역이나 애플리케이션 모델링 단계의 업무 영역에 대응되는 객체이다.

 

스토리지그룹:

물리적인 디스크를 묶어서 하나의 그룹으로 정의해 놓은 것이다. 테이블 스페이스, 인덱스 스페이스 생성 시 스토리지 그룹명을 지정하여 물리적 영역에 할당

 

테이블스페이스:

테이블이 생성되는 물리적인 영역이며, 테이블 스페이스에 하나 또는 그 이상의 테이블을 저장할 수 있다.

 

테이블:

논리 설계 단계의 엔터티에 대응하는 객체이다.

 

칼럼:

논리 설계 단계의 속성에 대응하는 객체이다.

 

인덱스:

테이블에서 특정 조건의 데이터를 효율적으로 검색하기 위한 색인 데이터이다. 기본키,외래키

 

뷰:

테이블에 대한 재정의로서 물리적인 테이블의 특정 칼럼, 특정 로우를 뷰로 정의하여 특정 사용자만 접근이 가능하도록 할 수 있다.

 

- 데이터표준 적용방법

1)명명 규칙에 대한 표준화

 

2)표준용어집에 의한 표준화

4.4 - 반정규화(Denormalization)

반정규화

논리 데이터 모델링의 마지막에 진행되었던 정규화 작업이 완료되면 데이터 모델은 데이터의 중복을 최소화하고 데이터의 일관성 정확성, 안정성을 보장하는 데이터 구조가 완성된다.

정규화된 데이터 모델은 시스템의 성능 향상, 개발 과정의 편의성, 운영의 단순화를 위해 정규화의 원칙들에 위배되는 행위를 의도적으로 수행하게 된다→

이러한 과정을 반정규화 과정이라고 한다.

- 반정규화된 데이터 구조는 성능과 관리효율을 증대시킬 수 있지만, 데이터의 일관성 및 정합성을 해칠 위험을 내포하고 있고, 또한 이를 유지하는데도 그만큼 비용이 발생하여 지나치면 오히려 성능에도 악영향을 미칠 수 있기 때문에,

데이터 모델의 각 구성 요소인 엔터티, 속성, 관계에 대해 데이터의 일과성과 무결성을 우선으로 할 지 데이터베이스의 성능과 단순화에 우선순위를 둘 것인지를 적절하게 조정하는 것이 중요하고 다양한 경험이 필수이다.

 

테이블 분할

하나의 테이블을 수직 혹은 수평 분할하는 것을 테이블 분할 또는 파티셔닝이라고 한다.

DB 디자인 단계에서의 데이터를 저장하는 방식의 파티셔닝과는 다른 것이다.

 

  • 수평분할
레코드(Tuple)을 기준으로 테이블을 분할하는 것을 말한다.

- 사용의의

하나의 테이블에 데이터가 많이 있고, 레코드 중에서 특정한 범위만을 주로 엑세스하는 경우에 사용

분할된 각 테이블은 서로 다른 디스크에 위치시켜 물리적인 디스크의 효용성을 극대화할 수 있다.

대표적인 방법으로는 범위(Range), 해쉬(Hash), 목록(List), 복합(Composite) 분할이 있다.

 

  • 수직분할

속성(Attribute)를 기준으로 테이블을 분할하는 것을 말한다.

갱신 위주 수직분할, 자주 조회 수직분할, 특정칼럼 크기 큰 경우 수직분할, 보안적용 수직분할

 

- 갱신 위주의 칼럼 수직 분할

데이터를 갱신하는 작업이 일어날 때 업데이트하려는 레코드, 즉 레코드에 잠금을 수행하기 때문에 분할작업을 실시한다.

잠금은 데이터의 무결성을 지키기 위한 수단으로 하나의 프로세스가 특정 데이터 값을 변경하려고 할때 변경 작업이 끝날 때까지 다른 프로세스가 이 데이터 값을 변경하지 못하도록 금지하는 것이다.

갱신 위주의 칼럼 수직 분할을 통해 데이터 사용의 효율성을 증가시킬 수 있다.

 

 

- 자주 조회되는 칼럼 분할

칼럼 수가 아주 많은 테이블에서 주로 사용되는 칼럼들이 극히 일부라고 가정한다면 일부 칼럼들로 이루어진 테이블을 생성하여 실제 물리적인 I/O양을 줄여서 데이터 엑서스 성능을 향상시킬 수 있다.

 

DBMS는 엑세스하고자 하는 모든 데이터를 초기에 물리적인 데이터 파일에서 메모리로 읽어들이게 된다. 또한

한번 읽어들인 데이터는 읽고 바로 지워지는 것이 아니라 일정기간 메모리에 저장되게 된다.

이러한 DBMS의 메커니즘상에서 보듯이 읽어 들이는 데이터의 양이 적다면 초기 데이터 메모리로 적재하는 비용이 절약되고, 또한 메모리상에 상대적으로 오래 머물 수 있기 떄문에 데이터의 재사용성을 높여주는 효과를 얻을 수 있다.

 

- 특정 칼럼의 크기가 아주 큰 경우 분할

특정 칼럼의 크기가 아주 큰 경우 분할이 일어나는 대개의 경우는 특정 칼럼의 크기가 크다는 것보다는 특정한 데이터 형식에 기인하는 문제가 대부분이다. (이미지 데이터, 대용량 데이터)

이러한 텍스트 및 이미지와 같은 LOB(Large objects)는 백업, 복원과 같은 관리나 프로그래밍과 같은 개발부분에서 성능이 저하될 가능성이 존재한다.

 

 

- 특정 칼럼에 보안을 적용해야 하는 경우의 분할

많은 데이터베이스 시스템이 테이블이나 뷰와 같은 객체들에 대해서는 SELECT, UPDATE, DELETE등과 같은 권한을 제어할 수 있는 기능을 제공하고 있다. 하지만 테이블 내의 칼럼에 대해서는 이러한 권한(Permission) 제어 기능을 제공하고 있지 않다.

이런 경우 해당 칼럼에 대해 권한을 제어하기 위해서는 보안을 적용하고자 하는 칼럼을 분리해 이를 별도의 테이블로 만들어 그 테이블에 대한 제어 권한을 얻을 수 있다.

 

중복 테이블 생성

많은 양의 정보를 자주 Group by, sum 등과 같은 집계 함수를 이용해서 실시간으로 통계 정보들을 계산해낼 수 있다. 하지만 대부분 이러한 계산의 유형은 매우 많은 양의 데이터가 대상이 되고, 하나의 테이블이 아닌 여러 개의 테이블에서 필요한 데이터를 추출하는 경우가 대부분이다.

이를위해 특정

통계 테이블을 두거나 중복 테이블을 추가

할 수 있다.

 

- 중복테이블 생산의 판단근거

정규화에 충실하면 종속성, 활용성은 향상되지만 수행속도 증가가 발생하는 경우

많은 범위를 자주 처리해야 하는 경우

특정 범위의 데이터만 자주 처리되는 경우

처리 범위를 줄이지 않고는 수행 속도를 개선할 수 없는 경우

요약 자료만 주로 요구되는 경우

추가된 테이블의 처리를 위한 오버헤드를 고려

 

1)집계(통계)테이블 추가

단일 테이블의 GROUP BY, 여러 테이블의 조인 GROUP BY

- 로우 수와 활용도를 분석하고 시뮬레이션을 통해 그 효용성에 대한 면밀한 검토 선행

- 집계 테이블에 단일 테이블 클러스트링을 한다면 집계 레벨을 좀 더 낮춰 활용도를 높일 수 있는지 고려해야 한다.

- 클러스터링, 결합 인덱스, 고단위 SQL을 활용하면 굳이 집계 테이블 없이도 양호한 수행속도 낼 수 있음

- 추가된 집계 테이블을 기존 응용 프로그램이 이용할 수 있는지 찾아 보정시키는 노력이 필요하다.

 

2)진행테이블 추가

추가사항

- 여러 테이블의 조인이 빈번히 발생하며 처리 범위도 넓은 경우

- M:M 관계가 포함된 처리의 과정을 추적, 관리하는 경우

- 검색 조건이 여러 테이블에 걸쳐 다양하게 사용되며 복잡하고 처리량이 많은 경우

 

유의사항

- 데이터량이 적절하고 활용도가 좋아지도록 기본키를 설정

- 필요에 따라 추출칼럼을 추가하여 집계 테이블의 역할도 하는 다목적 테이블을 구상

- 다중 테이블 클러스터링이나 조인 SQL을 사용하면 굳이 진행 테이블 안만들어도 쌉가능

 

중복 칼럼 생성

정규화를 통해 중복 칼럼을 최대한 제거하는 작업을 수행한다. 이렇게 중복 데이터를 제거하는 이유는 여러가지가 존재하지만 가장 큰 이유 중 하나는

데이터의 정합성을 유지

하기 위함이다.

 

- 생성상황

빈번하게 조인을 일으키는 칼럼에 대해 고려해볼 수 있다.

속도가 중요한 칼럼에 대해서 중복 칼럼을 고려할 수 있다.

엑세스의 조건으로 자주 사용되는 칼럼에 대해 고려해볼 수 있다.

상세한 조건 부여에도 불구하고 엑세스 범위를 줄이지 못하는 경우에 자주 사용되는 조건들을 하나의 테이블로 모아 조건의 변별성을 극대화할 수 있따.

복사된 칼럼의 도메인은 원본 칼럼과 동일하게 해야 한다. ← 데이터 일관성을 위한 필수사항

접근 경로의 단축을 위해 부모 테이블의 칼럼을 자식 테이블에 중복시킬 수 있다.

상위 레벨의 테이블에 집계된 칼럼추가 가능, 하위레벨 테이블에 중복칼럼 복사가능

판단할 수 없는 값이 검색의 조건으로 사용되는 경우에는 연산의 결과를 중복칼럼으로 생성가능

로우로 관리하던 데이터를 칼럼으로 관리하는 경우이다.

 

 

dasp를 공부하면서 논리적 데이터모델링 정리부분이 있어 부록으로 올립니다.

 

데이터 모델링 이해

논리 데이터 모델링의 핵심은 업무에서 필요로 하는 데이터에 존재하는 사실을 인식, 기록하는 것이다.

→ 어떤 조직의 업무 사실에 기초하여

그 조직에서 필요로 하는 데이터의 구조 및 업무 규칙을 논리 데이터 모델에 기록

하는 것이다.

 

  • 논리 데이터 모델링 필수 성공 요소

-

업무를 알고 있는 전문가의 참여

는 필수적이다

-

절차보다는 데이터

에 초점을 두고 모델링을 진행해라

- 데이터의 구조와 무결성을 함께 고려해라

-

개념화와 정규화 기법

을 적용해라

개념화: 현실세계에서 발생하는 업무 데이터를 엔터티, 관계, 속성으로 표현하는 추상화와 동일

정규화: 데이터의 올바른 위치를 찾아주는 기법

 

-

다이어그램

을 이용하여 업무를 표현해라

- 데이터 모델링을 지원하는

데이터 사전

을 구축해라.

 


  • 논리데이터 모델링 절차
주제영역정의 → 엔터티정의 → 관계정의 → 속성정의 → 식별자확정 → 정규화 → 이력관리

 

주제영역 정의

주제영역은 주요 자원, 상품, 활동을 중심으로 조직이 관심을 가지는 영역이다.

주제영역은 조직이 사용하는 데이터의 최상위 집합이다.

예를 들어 제조업체의 경우 인사, 고객, 상품, 구매, 생산, 판매 분야 등의 주제 영역이 있을 수 있다.

 

하나의 주제 영역 내에 정의되는 엔터티간의 관계는 밀접하고, 다른 주제 영역에 포함되는 엔터티 간의 상호작용은 최소화할 수 있도로 정의해야 한다.

 

계획수립 단계는 하향식 분석을 원칙으로 하고, 검증을 위해서 상향식 분석을 부분적으로 사용한다.

데이터를 하향식으로 분석하기 위한 개념으로 유용한 것이 주제영역이다.

 

주제영역은 데이터의 계층 구조를 파악하는데 도움을 주며, 품질 확보에도 기여한다.→ 시간을 단축시키지는 않는다.

 

엔터티 정의

엔터티란 조직에서 업무를 수행하는데 필요한 사물, 사건 또는 개념을 나타내는 어떤 것

현실 세계에 무수히 존재하는 인스턴스들을 추상화라는 개념을 통해서 엔터티로 정의하여 사용.

 

  • 엔터티분류
- 일반적인 분류

유형엔터티: 물리적으로 존재하는 대상(고객, 상품)

활동엔터티: 어떤 사건에 관한 정보(주문, 계약, 장비고장 등)

개념엔터티: 관리할 정보가 있는 무형의 개념(계정과목, 성적)

 

- 모델관점 분류

독립엔터티: 인스턴스의 식별을 위해 다른 어떤 인스턴스에도 의존적이지 않은 엔터티

종속엔터티: 인스턴스의 식별을 위해 다른 인스턴스에 의존해야만 식별이 가능하다.

 

- 발생시점 분류키 엔터티

: 자신의 부모를 가지지 않는 엔터티

사원 엔터티에 있는 '홍길동'이란 인스턴스는 아직 부서가 정해지지 않았더라도 사원으로서 정의하는데 아무 문제가 없다.

키 엔터티를 제외한 다른 모든 엔터티는 부모 엔터티를 가지고 있어야만 태어날 수 있다.

 

메인 엔터티

: 키 엔터티를 제외한 엔터티 중에서 업무의 중심에 해당하는 엔터티

 

액션 엔터티

: 키엔터티, 메인엔터티를 제외한 전부

모델링이 좀 더 구체적으로 진행되더라도 키 엔터티와 메인 엔터티는 집합의 본질이 크게 달라지지 않는다. 그러나

액션 엔터티는 상위 엔터티들이 어떻게 결정되느냐에 따라서 크게 영향을 받기 떄문에 업무의 본질은 살아있지만 최초에 예상했거나 과거에 정의했던 식별자가 크게 달라질 수도 있따.

 

  • 엔터티 도출

기업의 전략&목표 분석, 현 시스템 분석, 사용자 인터뷰, 정보요구 분석, 문서&보고서 작업

 

  • 엔터티 검증

논리 데이터 모델에 표현되는 모든 엔터티는

 

1. 데이터 모델의 구현 주체인

조직의 업무를 수행하는데 필요한 의미있는 정보

를 나타내야 한다.

조직에 따라서 엔터티의 범위는 천차만별 일 수 있다.

 

2.

하나하나의 특성 사례가 아닌 유사한 사물들을 대표하는 집합체

여야 한다.

'구매부서에서 공급처에 자재를 주문한다'와 같은 업무 분석 사항에서 만약 엔터티를 '구매부서'로 정의하게 되면, 조직 내에 엔터티가 너무 많아 관리가 불가능하다. → 구매부서는 단일사례

이의 경우에 엔터티를 '부서'로 정의하고, 구매부서는 이 엔터티의 인스턴스가 된다.

 

3. 속성들에 의해 결정된 단일 개념을 나타내야 한다.

 

4. 엔터티 내 인스턴스의 출현을 구별할 수 있는 능력을 제공해야하며, 정규화 규칙 만족.

엔터티는 인스턴스를 구별할 수 있는 능력을 제공해야한다. 엔터티 무결성

인스턴스를 구별할 수 있는 능력, 즉 식별이란 여러분들이 얘기하고 있는 사물이나 사람을 알고 있냐는 것이다.

엔터티 내 인스턴스의 출현을 구별할 수 있는 능력을 제공하기위해 식별자를 구성하는 일련의

1) 속성값이 반드시 있어야 하고

2) 이 값들이 유일해야 하며

3) 이 일련의 속성이 최소한의 개수로 이뤄져야 한다.

 

  • 엔터티 구체화
식별자 확정 → 정규화 → M:M관계해소 → 참조무결성 정의

 

1)식별자 확정단계

이제까지 논리적 의미의 식별자(본질 식별자)를 기준으로 관계들이 생성되고 속성들이 정의되었다면 이 단계는 실질적 식별자를 생성한다.

 

2)정규화 단계

정규화는 논리적 데이터 모델의 일관성을 유지하고 중복을 제거하여

보다 안정적인 모델

을 만드는 단계이다.

 

3)M:M 관계해소

개념 데이터 모델에서 핵심 엔터티들간의 M:M관계가 해소되면서 교차 엔터티(Intersection entity)가 생성되는 단계이다.

 

4)참조무결성 정의단계


관계 정의

관계란 하나 또는 두 개의 엔터티로부터 인스턴스를 연관시키는 업무적인 이유이다.

이러한 업무규칙은 업무를 전산화하기 이전에 다시 말해 전산화와는 독립적으로 이미 업무에 존재하는 사실이라는 점을 명심해야한다.

 

  • 관계개념

 

- 부모 자식 엔터티

하나 또는 두개의 엔터티 사이 관계가 있을 때 기수성과 선택성에 따라 부모, 자식엔터티를 구분.

외래키가 나타나는 곳이 자식 엔터티라고 생각하면 쉽다

- 일대다 기수성의 경우에는 '일'쪽이 부모이고 '다'쪽이 자식이다.

- 일대일 기수성의 경우에는

선택성 '필수'쪽이 부모이고 '선택'쪽이 자식

이다.

- 다대다 기수성의 경우에는 일대다의 연관엔터티로 정련한다.

 

* 관계를 해석하는 방식

항상 어느 엔터티에 인스턴스가 입력되는 시점에 관계가 있는 상대편의 엔터티에 인스턴스가 필요한지 필요없는지를 근거로 관계의 선택성을 결정한다.

하나의 주문 입력 시 고객은 반드시 입력되어 있어야한다. <

필수

>

하나의 고객 입력 시 주문은 입력 안 될 수도 있다. <

선택

>

 

  • 관계 도출

관계란 하나 또는 두 개의 엔터티로부터 인스턴스를 연관시키는 업무적인 이유라고 하였다. 만약 엔터티만 알고있고 엔터티의 인스턴스가 무엇인지를 알 수 없으면 정확한 관계를 설정할 수 없다.

EX)

'업무영역' 엔터티의 인스턴스들이, 즉 인스턴스가 '인사', '급여', '구매', '생산' 등이고, 'DB'엔터티의 인스턴스들이 '인사DB', '급여DB', 구매DB'등 업무영역과 동일한 단위의 DB를 관리하는 것이라면 이 두 엔터티의 관계는 1:1 한쪽 필수 한쪽 선택 식별 관계가 될 것이다.

하지만 만약에 DB 인스턴스들이 ORACLE, SQL Server, Sybase와 같이 특정 데이터베이스 관리 시스템을 말하게 된다면 일대다의 관계가 형성될 것이다

→ 엔터티를 그 조직에서 어떻게 정의하느냐에 따라 관계 정의가 달라질 수가 있다.

 

다대다 관계의 경우 카티션 프로덕트가 발생하여 정보의 왜곡이 발생한다. →연관관계로 해소

 

  • 특수관계

 

- 자기참조관계

계층 구조 모델은 자기 참조 관계가 아닌 부모의 식별자를 자식의 식별자의 일부로 사용하면서 조직의 계층 구조를 표현하고 있다.

이러한 계층 구조 모델은 조직 변경이 일어나는 경우, 이에 대한 대응을 원활하게 하기 매우 어렵다.

조직과 같이 계층 구조를 갖는 업무에서 계층구조

순환 전개 모델처럼 관계로 표현해야 조직 변경에 탄력적으로 대응할 수 있다.

 

조직은 계층 구조가 년 단위 내지는 조직 경영의 목적상 필요한 경우 등등 지속적으로 변화한다. 하지만 회계 업무의 계정 과목은 계층 구조가 한 번 결정되고 나면 변화가 거의 없다고 해도 과언이 아니다.

같은 계층구조이지만 업무의 변화 가능성에 따라 이를 모델링하는 방법이 다른 것이다.

→ 계층 구조 변경에 매우 유연하다.

계층구조 변경시 데이터의 수정이 없다

→ 계층 구조이면서 변동이 발생하는 업무에 적용한다.

 

- 배타적관계

어떤 엔터티의 행이 두 개 이상의 다른 엔터티의 행과 관계를 맺는데 있어서

어느 시점에 반드시 하나의 엔터티의 행과 관계를 맺는 형태.

EX)

'출고'의 행이 두 개 이상의 다른 엔터티와('공정', '창고') 관계를 맺는 데 있어서 어느 시점에 반드시 하나의 엔터티의 행과 관계를 맺는 형태를 말한다.

배타적 관계는 항상 필수이거나 선택이어야 한다.

배타적 관계는 반드시 하나의 인스턴스에만 속해야 한다.

 

속성정의

속성: 데이터베이스 내에 저장되는 최소 단위의 정보

 

  • 속성도출

현행 시스템 자료, 현업 장표&보고서, 사용자와 협의, 데이터 흐름도의 데이터 저장소, 전문 서적 및 자료, 다른 시스템 자룦

 

  • 속성 정의사항

- 각 속성에 대한 상세 정보의 중요성

→ 업무 관련 데이터의 본질과 목적을 이해하는데 도움을 준다

→ 속성 수준의 무결성을 설정하고 강화하는데 도움을 준다

→ 데이터 무결성을 개선하여 데이터 품질을 향상시킨다

→ 데이터 사전을 구성한다.

 

- 속성 명

속성명만 보고서도 내용이 무엇인지를 쉽게 이해할 수 있도록 명명하는 것이 좋다.

유일한 복합명사를 사용

속성이란 자신만이 가지는 분명한 독립적인 의미를 가지고 있기 때문에 명칭 또한 단순히 일반 용어만으로 부여해서는 결코 구체적인 의미를 나타낼 수 없다.

 

- 속성 유형

기본속성: 속성 값이 해당 인스터스에 원래 존재하여, 다른 속성 값으로부터 유도될 수 없는 속성

 

유도속성

: 속성 값이 항상 다른 속성의 값으로부터 유도되거나 계산되는 속성

→유도속성은 어떤 상수 값으로 지정되는 것이 아니라, 유도 알고리즘이라는 계산을 수행한 결과를 유도 속성의 값으로 반환한다.

 

설계속성: 업무 제약사항을 반영하거나 시스템 운영을 단순화하기 위하여 생성하는 속성

(기본과 설계는 일반적으로 동일하게 다룬다)

 

  • 속성 검증 및 확정

원자 값 단위까지 분할 → 하나의 값만을 가지는지 검증 → 유도 속성인지 검증

 

가. 원자값 단위까지 분할

데이터 모델 내 모든 속성은 원자적(atomic)이여야 한다. 한 엔터티에 나타난 속성값은 업무적인 이유에 의해 논리적으로 더이상 분해될 수 없는 단위값(Unit value)이다.

EX)계좌번호(16) = 지점코드(3) + 상품코드(2) + 계좌개설일자(8) +;;;;; 이와 같은 식으로 할 경우 원자값 단위까지 분할원칙을 져버리게 된다.

 

나. 하나의 값만을 가지는지 검증

속성에서 관리되어야할 값이 반드시 단 하나만 존재해야 한다.

→ 엔터티에 들어가는 인스턴스마다 반드시 하나의 값만 보유하고 있어야 한다는 것이다.

 

다. 유도속성인지 검증

속성이 원천적인 값인지, 다른 속성에 의해 가공되어서 만들어진 값인지를 검증하는 것이다.

추출 값이란 원천적인 값을 가지고 언제라도 쉽게 재현할 수 있는 속성을 말한다.

cf) 유도 속성은 절대 식별자의 역할을 맡아서는 안된다 절대

 

식별자 확정

후보 식별자 도출 → 보조 식별자 → 인조 식별자 지정 → 식별자 확정

엔터티 내의 모든 인스턴스는 유일하게 구분되어야 한다. 이러한 유일성을 보장하기 위해서 필요한 것이 식별자이다. 현실세계에서 매우 유사한 특성을 가지는 두 개의 사물을 어떻게 구별할 것인가? → 식별자의 중요성

 

본질식별자 - 업무에서 사용하는 속성을 이용하여 유일성을 보장한다.

→ 기준정보 엔터티, 거래처리 엔터티에 따라 다르게 정의된다

 

- 기준정보 엔터티

사원, 고객, 상품과 같이 부모 엔터티 없이도 혼자서 정의될 수 있는 엔터티이다.

 

- 거래처리 엔터티

하나의 인스턴스를 유일하게 발생하시키는 일련의 속성이 어느 부모로부터 상속되었는지를 찾고자 하는 것이며, 결국 자신을 있게 한 근본을 찾는 것이다.

 

1. 후보 식별자 도출

이전 단계에서 정의된 본질 식별자를 기본으로 식별자의 자기 목적인 자기를 식별할 수 있어야한다는 유일성 유지의 목적과 다른 엔터티에서 정보로 참조해야 하는 목적을 적절히 판단하여 최종식별자를 확정해야 한다.

- 하나의 엔터티 내에는 식별자로 사용할 수 있는 하나 이상의 식별자가 있다. 이 중에서 하나의 식별자로 선택되게 된다. 나머지 식별자들을 후보 식별자라고 한다.

→ 널이 될 수 없다.

→ 각 인스턴스들을 유일하게 식별할 수 있어야 한다.

→ 나머지 속성들을 직접 식별할 수 있어야 한다.

→ 후보 식별자로 속성 집합을 선택하는 경우에는 개념적으로 유일해야 한다.

→ 후보 식별자의 데이터는 자주 변경되지 않는 것이여야 한다.

 

  • 보조식별자 → 유일성 O, 대표성 X (회사에서의 주민등록번호)

엔터티 내에서 하나의 인스턴스를 유일하게 식별할 수 있는 속성이지만 대표성을 갖지 못하는 속성

사원 엔터티에 공식적으로 부여된 식별자는 사원번호이지만, 만약 주민등록번호 속성이 유일한 값을 가지면서 필수적으로 정의되었다면, 비록 공식적인 식별자는 아니지만 식별자로서의 역할을 할 자격은 충분히 갖추고 있다.

 

2. 인조식별자 지정

업무에서 사용하는 속성이 아닌 인위적으로 만든 속성으로 유일성을 보장한다. 기존의 본질 식별자를 그대로 인정할 수 없는 여러가지 상황이 발생했을 때, 전부 혹은 일부의 값을 가진 속성들로 대체하여 새롭게 구성한 식별자를 말한다.

-

최대한 범용적인 값을 가진다. - 유일한 값을 만들기 위한 인조 식별자를 사용한다. - 하나의 인조 식별자 속성으로 대체할 수 없는 형태를 주의한다. - 편의성&단순성 확보를 위한 인조 식별자를 사용할 수 있다. - 의미의 체계화를 위한 인조 식별자를 사용할 수 있다. - 내부적으로만 사용하는 인조 식별자

 

3. 식별자 확정

  • 식별관계의 두가지 의미

- 식별자로서의 역할

엔터티 자신의 입장에서 보았을 때 자신의 인스턴스들을 다른 것들과 구별될 수 있도록 유일한 값을 만드는데 일조한다는 의미이다

 

- 정보로서의 역할

참조하는 엔터티의 입장에서 보았을 떄, 상대방의 식별자를 상속 받았기 떄문에 자신이 보유한 정보가 증가했다는 의미도 있다.

 

  • 식별자 확정절차
하향식방식

, 즉 상위 엔터티부터 시작해 하위 엔터티로 순차적으로 결정해가는 것이 좋다. 식별자 상속이란 상위에서 하위로 이루어지기 때문이다.

가. 기준정보 엔터티 식별자 확정

나. 중요거래처리 엔터티 식별자 확정

다. 기타거래처리 엔터티 식별자 확정

 

관계 선택성 VS 관계 식별성

  • 관계선택성 표기법

필수:

다른 엔터티에 어떤 행을 입력하기 전에 상대 엔터티에 적어도 한 건의 행이 반드시 있어야하는경우

선택:

다른 엔터티에 행을 입력하기 전에 상대 엔터티에 어떤 행이 존재할 필요가 없는경우.

 

CASE Method에서는 필수를 실선, 선택은 점선

IE에서는 필수는 동그라미 생략, 선택은 관계선에 동그라미

 

  • 관계식별성 표기법

식별:

부모 엔터티의 식별자가 자식 엔터티의 식별자의 일부분이 되는 관계

 

비식별:

부모 엔터티의 식별자가 자식 엔터티의 식별자의 일부분이 되지않고, 일반 속성이 되는 경우

 

CASE Method에서는 식별을 UID BAR, 비식별 UID BAR생략

IE에서는 식별을 실선, 비식별을 점선

정규화(Normalization)

정규화는 엔터티에 데이터의 입력, 수정, 삭제 연산을 수행할 때 발생하는 이상현상을 제거하여 논리 데이터 모델링의 목적인 정확성, 일관성, 단순성, 비중복성, 안정성을 만족시키는 최적의 데이터 구조를 만들어가는 과정이다.

 

정규화 과정은 중복 데이터를 제거하여 최적의 데이터 구조로 만들기 위해 여러 단계를 거친다.

 

- 정규화의 장점

중복 값이 줄어든다. → 정규화의 최대성과

새로운 요구사항의 발견과정을 돕는다. NULL값이 줄어든다.

복잡한 코드로 데이터 모델을 보완할 필요가 없다. 데이터 구조의 안정성을 최대화한다.

 

  • Anomaly(이상현상)

 

- 입력이상

데이터를 입력하려고 할때 원하지 않는 데이터도 함께 입력해야 하는 구조로 되어 있는 경우


- 수정이상

일부 속성값을 수정함에 있어서 원하지 않는 정보의 이상현상 발생하는 경우


- 삭제이상

일부 정보를 삭제함으로써 유지되어야 할 정보까지도 연쇄삭제되는 현상

 

제 1정규형

- 모든 속성은 반드시 하나의 값을 가져야 한다. 즉 반복 형태가 있어서는 안된다.

- 각 속성의 모든 값은 동일한 형식이여야 하다.

- 각 속성들은 유일한 이름을 가져야 한다.

- 행들은 서로간에 식별이 가능해야 한다.

 

어떤 속성이 다수의 값 또는 반복 그룹 값을 가지고 있다면 일대다 엔터티를 추가한다.

→ 비정규형 릴레이션이 릴레이션으로서의 모습을 갖추기 위해선 여러 개의 복합적인 의미를 가지고 있는 속성이 분해되어 하나의 의미만을 표현하는 속성들로 분해되어야 한다.

 

제 2정규형

식별자가 아닌 모든 속성은 식별자 전체 속성에 완전 종속되어야한다.

부분적 함수의 종속성 제거원칙을 준수한다.

기본키가 2개 이상으로 구성된 엔터티에서 일반속성이 PK속성들 중 일부 속성에 대해서만 부분적 종속성이 있는 속성일 경우 해당속성을 제거한다.

- PK가 1개인 엔터티는 제 2정규화 대상에서 제외한다.

- 한 속성이 PK 모두에 대해서 종속성이 있지 않고 부분적 종속성만 있을 경우 이를 별도 테이블로 관리한다.

- 보통 키가 복합속성일 때, 일부 속성이 일부 키에 종속이 발생하는 것을 말한다.

→2차 정규화를 진행하면 보통 부모 엔터티가 생긴다.

 

EX)

주문번호 + 상품코드로 이루어진 주문상품 엔터티에서 상품명이 상품코드에 종속적이다.

 

제 3정규형

제 2정규형을 만족하고 식별자를 제외한 나머지 속성들 간의 종속이 존재하면 안된다.

기본적으로 엔터티 내 모든 속성들은

기본키에 의존성을 가져야 한다

.

기본키에 의존하지 않고 일반속성에 의존하는 속성을 제거 또는 분리한다.

ex)메일주소 속성은 PK인 글번호에 의존하지 않고 고객아이디에 의존하기 때문에 분리해야 한다.

이력관리

데이터는 현재의 프로세스만 처리하고 버리는 것이 아니라 마치 후손에게 물러주어야 할 귀중한 문화유산처럼 오랜 기간의 데이터를 유지시켜 좀 더 가치있는 정보를 제공할 수 있는 밑거름이 되도록 해야한다.

 

1)발생 이력 데이터

어떤 데이터가 발생할 때마다 이력 정보를 남겨야만 한다면 발생이력이라고 볼 수 있다. 이벤트가 발생할 때에만 이력 데이터를 발생하는 방법이 있고, 이력이 발생하지 않더라도 날마다 데이터를 생성하는 방법이 있다.

 

2)변경 이력 데이터

데이터가 변경될 때마다 변경 전과 후의 차이를 확인해야 한다면 변경이력을 남길 수 있다. 예를들어 고객이 주문을 하고서 주문 정보를 변경하였을 때, 이전 주문과 변경된 새로운 주문 정보를 관리하기 위해 변경된 새로운 주문 정보를 이력 정보로 남겨야한다.

 

3)진행 이력 데이터

업무의 진행에 따라 이 데이터를 이력 정보로 남겨야만 하는 경우. 주문과 같은 업무처리

구매친성 → 입금완료 → 배소중비 중→ 배송중→배송완료 혹은 주문취소

 

  • 이력관리형태

1)시점이력

데이터의 변경이 발생한 시각만을 관리

특정 통화의 환률이 변경되면 새로운 인스턴스가 생겨나고, 그 시점의 해당 통화 환율과 발생시각을 기록&보관함으로써 환율이 어느 시점에 얼마의 값으로 변경되었다는 정보를 관리하는 것이다.

 

2)선분이력

데이터 변경의 시작 시점부터 그 상태의 종료 시점까지 관리

가 통화의 특정기간동안 유효한 환률을 관리

선분이 아무리 길어도 레코드는 하나이다.

 

  • 선분이력관리 유형

인스턴스 레벨 이력관리

속성 레벨 이력관리

주제 레벨 이력관리

대푯값(자료 전체를 대표하는 값)

- 분포의 중심위치를 나타내는 측정치이다.

- 대푯값은 분포의 중앙 또는 도수의 집중점과 반드시 일치하지는 않는다.

- 관찰된 자료들이 어느 곳에 가장 많이 모여있는가를 나타내는 것 → 집중화 경향

집중화 경향을 나타내는 수치 = 산출평균, 중위수, 최빈값

계산적인 대푯값: 산술평균, 기하평균, 조화평균, 평방평균

위치적인 대푯값: 중위수, 최빈수, 사분위수, 백분위수

  • 계산적인 대푯값

표본을 가지고 산출하는 것이 아닌, 변수 전체를 사용하여 계산해 내는 값.

한 값이라도 변하게되면 대푯값에 영향을 준다.

극단적인 변수에 의해 영향을 받기 때문에 추상적인 대푯값이라고도 한다.

평균은 이상치에 영향을 많이 받는다.

1) 산술평균(X바)

n개의 수가 있을 때, 이들의 합을 개수로 나눈 것. 우리가 일반적으로 생각하는 평균

1nxi=x1+x2+x3+xnn\frac\sum _{}xi = \frac

2) 기하평균 (G)

변화율이나 비율의 평균을 구할 떄 이용하는 수치로서 모든 측정치를 곱하여 측정치의 수만큼 제곱근을 구한 것이다.

- 극단적인 변수의 값에 영향을 받지만 산술평균보다는 적게 받는다.

- 인구변동률, 물가변동률, 경제성장률과 같은 비율의 대푯값 산정에 많이 쓰인다.

G = x1×x2×x3×xnn \sqrt[n]

3) 조화평균 (H)

n개의 양수에 대하여 그 역수들을 산술평균한 것의 역수를 말한다.

- 추상적인 대푯값으로 극단적인 값의 영향을 받으며, 역수를 갖는 변량 외에는 거의 사용 x

- 단위당 평균 산출에 이용한다.

H = n1xi\frac{\sum \frac}

  • 위치적인 대푯값

1)중위수(Me)

통계집단의 측정값을 크기순으로 배열했을 때 중앙에 위치한 수치를 말한다.

N이 홀수일 경우에는 (n+1)/2번째값이 되고, N이 짝수인 경우에는 (n+1)/2와 n/2의 평균값이 된다.

- 극단적인 값의 영향을 받지 않으며, 중위수에 대한 편차의 절대치의 합은 다른 어떤 수에 대한 편차의 절대치의 합보다 작다.

- 분포모양이 대칭일 경우에는 중앙값과 산술평균은 일치한다.

- 분포모양이 비대칭일 경우에는 산술평균이나 최빈수보다 자료의 대표성을 높일 수 있다.

- 경기변동을 산출할 때 사용한다. 제 2사분위수와 동일한 측도이다.


2)최빈수(Mo)

변량 X의 측정값 중에서 출현도수가 가장 많은 값을 의미한다.

중위수와 마찬가지로 자료 가운데 극단적인 이상점에 영향을 받지 않는다.

- 분포모양이 좌우대칭일 때에는 최빈수가 대체로 대표성이 있으며, 최빈수는 전형적인 값이므로 가장 납득하기 쉬운 대푯값이다.

- 가장 쉽게 알아낼 수 있는 대푯값이며, 같은 관측치를 나타내는 관찰대상의 규모 등을 파악하고자 할 때 유용한 대푯값이다.

- 명목수준의 측정에서 사용하는 통계기법이다.


3)산술평균(Xˉ\bar), 중위수(Me), 최빈수(Mo)의 관계

좌우대칭 분포일 경우: Xˉ\bar = Me(중위수) = Mo(최빈수)

좌측 비대칭 분포일 경우: Xˉ\bar > Me(중위수) > Mo(최빈수)

우측 비대칭 분포일 경우: Xˉ\bar < Me(중위수) < Mo(최빈수)

산포도(분산도)

자료의 분산 상황을 나타내는 수치로 변량 x와 그 분포 F(x)가 주어졌을 때, 그 분포의 중심적 위치의 척도를 m이라고 할 때, F(x)의 m 주위에 흩어져 있는 정도를 나타내는 기술적 지표이다.

- '분산도'라고도 하며, 크기가 고르지 않은 집단의 특징은 평균 외에 자료의 값이 흩어져 있는 정도를 조사하면 더욱 뚜렷해진다.

- 산포도가 클수록 그 분포의 흩어진 폭이 넓고, 산포도가 작을수록 분포의 흩어진 폭이 좁다.

절대적 분포의 산포도: 범위, 사분위수 범위, 평균편차, 사분편차, 분산&표준편차

상대적 분포의 산포도: 변이계수(변동계수), 사분위편차계수, 평균편차계수

  • 절대적인 분포의 산포도

1)범위(Range)

자료의 분산을 측정하는 가장 간단한 방법으로 자료의 관측치 가운데 가장 큰 최댓값과 최솟값의 차이를 말한다.

범위(R) = 자료의 최댓값 - 자료의 최솟값

- 가장 간단히 구할 수 있는 산포도이며, 표본의 크기가 일정하며 그다지 크지 않은 표본을 다룰 때 매우 편리하다.

- 사용되는 분야는 극히 제한을 받으며 공업적 품질관리 등에서 통계적 기법을 다룰 때 사용된다.


2)사분위수 범위(IQR)

사분위수범위(IQR) = Q3 - Q1


3)평균편차(Mean Deviation) <분산과 다름을 유의>

관측치들의 평균값으로부터 떨어져 있는 거리를 말한다.

평균편차란 평균값에 대한 각 변량의 편차의 절댓값을 평균한 값으로 보통은 산술평균에서의 편차의 절댓값의 평균값을 취하고 있다.

MD = 1nxixˉ\frac\sum \left | xi - \bar \right |

- 절댓값이 포함되어 수학적 처리의 복잡성과 통계적 추론에서 이용도가 낮기 때문에 별로 사용하지 않는다.

- 극단적인 값의 영향은 있으나 분산에 비해 적다는 이유로 사용하기도 한다.


4)사분편차(Quartile Deviation)

Q3에서 Q1을 뺀 값에 1/2값이다. 극단적인 값의 영향을 받지 않으며, 대푯값이 중위수일 때 쓰이는 산포도이다.

- 범위의 극단적인 값의 영향을 받아 불안정함을 개선하기 위하여 고안된 산포도로 주로 변수가 많을 때 사용한다.

사분편차 = (Q3 - Q1) / 2


5)분산과 표준편차

분산이 0이면 모든 변량이 평균값에 집중되고 있음을 의미하며,

분산의 값이 크면 클수록 변량이 평균에서 멀리 떨어져 있다는 것을 의미한다.

  • 상대적인 분포의 산포도

1)변이계수(CV)

표준편차를 산술평균으로 나눈 값을 의미한다.

- 추정통계학에서 표본의 크기를 설정하는 데 많이 쓰인다.

- 평균의 차이가 큰 OR 단위가 다른 두 집단의 산포를 비교할 때 이용한다.

- 변이계수의 값이 큰 분포보다 작은 분포가 상대적으로 평균에 더 밀집되어 있는 분포이다.

CV = S / xˉ\bar

2)사분위편차계수

사분편차를 중위수로 나는 몫을 사분위편차계수라 한다.

3)평균편차계수

평균편차를 중위수 또는 산술평균으로 나눈 몫을 평균편차계수라고 한다.

비대칭도

  • 왜도

자료분포의 모양이 어느 쪽으로 얼마만큼 기울어져 있는가, 즉 비대칭 정도를 나타내는 척도이다.

왜도가 0이면 대칭분포를 이룬다(정규분포)

왜도가 0보다 크면 왼쪽으로 기울어진 분포이다.

왜도가 0보다 작으면 오른쪽으로 기울어진 분포이다.

왜도의 절댓값이 클수록 비대칭 정도는 커진다.

- 피어슨대칭도(SkS_)

Sk=XˉMOS3(XˉMe)SS_ = \frac{\bar - M_} \approx \frac- M_)}

SkS_가 0이면 대칭분포를 이룬다

SkS_가 0보다 크면 왼쪽으로 기울어진 분포도이다.

SkS_가 0보다 작으면 오른쪽으로 기울어진 분포도이다.

-1 < SkS_ < 1

  • 첨도

분포도가 얼마나 중심에 집중되어 있는가, 즉 분포의 중심이 얼마나 뾰족한가를 측정하는 것이다.

첨도 = 3이면 표준정규분포로 중첨이라고 한다.

첨도 > 3이면 정점이 높고 뾰족한 모양으로 급첨이라고 한다.

첨도 < 3이면 낮고 무딘 모양으로 완첨이라고 한다.


첨도의 경우 기출문제에 한번 어렵게 등장한 적이 존재

Q.다음중 첨도가 가장 큰 분포는?

1)표준정규분포

2)평균=0,표준편차=10인정규분포

3)평균=0,표준편차=0.1인정규분포

4)자유도가 1인 t분포

첨도는 기본적으로 표준편차를 기준으로 생각하면 된다.

표준편차가 커지면 첨도도 커지고 표준편차가 작아지면 첨도도 작아지게 됨.

평균에서 뾰족하면(꼬리가 얇으면) 첨도가 작고, 평평해지면(꼬리가 두꺼우면) 첨도가 크게 된다.

문제는 t 분포.  t 분포는 자유도에 따라 달라지게 되며, 자유도가 커지면 근사적으로 표준정규분포 근사. 자유도가 1 이면 data 의 수는 2 이므로 표준편차는 상대적으로 매우 커진다.

→ 그러면 거의 균등(균일)분포와 같은 분포 성립.

+ Recent posts