Personal log는 다시 한번 블로그를 쓰기로 결심하며 새롭게 생각해본 카테고리이다.

주된 내용은 나의 가장 소중한 사람들과 맛있는 밥을 먹으며

그들의 가치관과 노력을 엿듣고 배울점을 정리하여 블로그에 남기는 것이다.

 

Personal log를 작성해보고 싶다고 생각했던 결정적인 계기는

작년 1년간의 휴학 기간동안 부산에서 부모님과 함께 살며 자격증 및 직무공부를 하며 

사람들을 만날 기회가 거의 없었다.

 

1년간 혼자 생각 및 회고를 하며

스스로에 대해 많은 생각을 해볼 수 있었고,

내 주변에 나에게 과분한, 너무 훌륭한 분들이 있음을 깨달을 수도 있었다.

 

사람에게 영향을 많이 받는 나의 세상에서

나에게 강렬한 인상을 주는 사람들, 자신의 행동으로 세상이 바뀌길 꿈꾸는 

주변 사람들을 만나보고 그들의 생각과 노력을 여기에 남기고자 한다.

총설

 

  • 과학적 방법

- 과학적 방법의 의의

이론 → 가설 → 관찰 및 검증을 통해 규칙을 발견하고 이를 일반화하고 논리적인 이론으로 정립.

모든 현상과 사건에는 원인이 있으며, 모든 현상을 이해하고 설명할 수 있다.

 


- 과학적 방법의 특징

재생가능성)

동일한 조건하에 동일한 결과가 재현되어야 한다.

 

경험성)

궁극적으로 인간의 감각에 의해 지각될 수 있는 것이어야 한다.→ 경험될 수 있는 것이여야 한다.

 

인과성)

자연발생이 아닌, 어떤 원인에 의해 나타난 결과이며 논리적 설명이 가능해야 한다.

 

객관성)

표준화된 도구와 절차 등을 통해 누구나 납득할 수 있어 한다.

 

상호주관성)

같은 방법을 사용했을 때 같은 해석 또는 설명에 도달할 수 있어야 한다.

 

체계성)

일정한 틀, 순서, 원칙에 입각하여 진행되어야 한다.

 

변화가능성)

기존의 신념이나 연구결과는 언제든지 비판되고 수정될 수 있다.

 

간결성)

적은 수의 변수로 보다 많은 현상을 설명할 수 있어야 한다.

불필요한 내용은 제외하고, 간결하게 설명되어야 한다.

 

반증가능성)

검증하려는 가설이 실험이나 관찰에 의해서 반증될 가능성이 있다는 것을 의미한다.

 

 


- 지식탐구방법

관습에 의한 방법 - 사회적인 습관 & 전통적인 관습

권위에 의한 방법 - 권위자나 전문가의 의견을 인용

 

직관에 의한 방법

- 가설설정 및 추론의 과정 x, 확실한 명제를 토대로 직접적인 인식 추구

과학에 의한 방법

- 가설을 세우고 자료를 수집 & 분석하여 일반적인 이론을 도출.

 

 


- 과학적 방법의 논리전개방식

 

연역법)

이미 참으로 인정된 보편적 원리를 가지고 현상에 연역시켜 설명하는 방법이다.

법칙과 이론으로부터 어떤 현상에 대한 설명과 예측을 도출하는 방법이다.

다른 부분을 실제연구없이 논리적으로 검증한다는 측면에서 경제적 but

최초의 이론 형성 어려움.

'가설설정 → 조작화 → 관찰&경험 → 검증'

ex) 모든 사람은 죽는다 → a는 사람이다. → 그러므로 디진다.

 

 

귀납법)

과학은 관찰과 경험으로부터 시작된다. 개별적인 사실들로부터 일반적인 원리를 이끌어내 보편성과 일반성을 가지는 하나의 결론을 내린다.

어느 정도의 자료만을 가지고도 상당수준의 일반화 법칙이 가능. but 아무런 이론적 배경 없이 현상의 속성을 측정하기 위한 변수들을 의미있게 선택하는데 한계 존재

'주제선정 → 관찰 → 유형의 발견 → 임시결론(이론)'

ex) 까마귀 1은 검다 ———> 까마귀 9999은 검다 → 고로 모든 까마귀는 검다.

 

연역법 귀납법은 서로 대비되는 장 단점으로 인해 상호보완적인 관계를 형성한다.

 

 

  • 과학에 있어서의 가치와 윤리

- 사회과학

일반화가 용이하지 않다.

사고의 기능이 제한 & 명확한 결론 어려움

인간의 형태 & 사고

새로운 이론이라도 기존의 이론과 완전 단절 x

- 자연과학

일반화가 용이하다.

사고의 가능성이 무한정, 명확한 결론 가능

동식물 & 자연현상

기존의 이론과는 전혀 다른 새로운 이론 등장

 

 


- 사회과학의 패러다임

 

 

1) 실증주의적 패러다임

사회현상은 실험과 같은 자연과학의 원리를 사용함으로써 연구되어야 한다고 보며, 사회 내의 법칙 규칙 등을 찾아내고자 한다.

 

- 연구자와 연구대상을 분리하고 가치중립성을 확보함으로써 사회적 실재 파악

- 현상의 원인을

객관적으로 측정하며, 일반화

를 전개

- 경험적인 관찰, 구조화된 양적 방법

 

 


2) 해석주의적 패러다임

개인의 다양한 경험과

사회적 행위의 주관적 의미에 대한 해석과 이해를 통해 설명

하고자 한다.

보편적으로 적용가능한 분석도구가 존재하지 않는다고 주장함으로써 상대주의적인 양상을 보인다.

 

- 인간 행위의 동기나 의도를 문화적 코드 & 사회의 복잡한 규범들의 맥락 속에서 파악하고자 한다.

- 신뢰성과 일반화보다는 타당성을 강조한다.

- 실증주의에 입각한 객관주의적 경험관을 극복하려고 한다. 비조작적, 불개입, 질적인 방법 선호

 


조사연구

 

 

  • 과학적 연구의 과정

문제정립 → 가설설정 → 연구설계 → 자료수집 → 자료분석 → 보고서 작성

 

 

1)문제정립

선행연구분석(문헌연구)는 문제정립 단계와 가설설정 사이단계에서 이루어진다.

 

- 설정된 연구의 적정성 판단기준

설정은 두 개 이상의 변수들 간의 관계를 서술해야 하며, 실증적 연구를 통해 해결될 수 있도록 작성

가능한 한 명백하고 확실한 것이여야 한다.

관찰 가능한 현상과 밀접히 연결되어야 한다.

 

 


2)가설설정

가설 : 둘 이상의 변수 또는 현상 간의 관계를 설명하는 검증되지 않은 명제 또는 연구 문제에 관해 검증할 수 있도록 기술된 잠정적인 응답이다.

 

 


3)연구설계

- 변수의 종류, 변수의 수, 변수의 성격등을 밝힌다.

- 표본추출의 문제, 즉 표본추출의 단위, 종류, 규모를 밝히며 가설의 검증방법과 오차문제도 고려

- 일정한 자료수집방법을 강구해야 한다.

 

 


4)자료수집

분석에 앞서 용이하게 분석될 수 있도록 일정하게 정리

 

 

5)자료분석

분석방법은 연구가설, 연구설계, 변수 간의 관계에 따라 미리 결정되는 것이 보통이다.

 

 

6)보고서 작성

 

  • 과확적 연구의 분석단위

- 분석단위의 요건

적합성, 명료성, 측정 가능성, 비교 가능성

 

 


- 분석단위의 분류

개인) 개개인의 특성을 수집하여 집단과 사회와의 상호작용을 기술할 때 주로 이용한다.

집단) 사회집단을 연구할 경우의 분석단위 → 가족, 학급, 학과등이 해당

 

 

조직&제도) 제도 자체의 특성 또는 이들 조직을 구성하는 개인

사회적 가공물 & 생성물) 인간이 아닌, 사회적 가공물/생성물도 분석단위에 포함된다.

 

 


- 분석단위에 대한 오류

 

생태학적 오류)

분석단위를 집단에 두고 얻은 연구의 결과를 개인에게 동일하게 적용함으로써 발생하는 오류

ex) 학급의 성적이 전반적으로 낮을 때, 어느 학생에 대해서 성적이 좋지못할 것이라고 단정

 

 

개인주의적 오류)

분석단위를 개인에 두고 얻은 연구의 결과를 집단에게 동일하게 적용하는 경우

ex) 학생의 성적이 매우 우수할 때, 학생이 속한 학급의 성적이 좋을 것이라 단정하는 경우

 

 

환원주의적 오류)

넓은 범위의 인간의 사회적 행위를 이해하는데 필요한 변수 또는 개념의 종류를 지나치게 한정

ex) 사회학자의 경우 사회학적 변수로만, 경제학자의 경우 경자학적 변수에 대해서만 고려.

 

 

  • 과학적 조사연구의 유형
- 방법에 의한 분류

질적연구

준거의 틀에 입각하여 인간의 행태를 이해

자연주의적&비통제적

주관적 & 해석적 & 귀납적이다.

일반화할 수 없다.(단일사례연구)

총체론적이다.

소규모 분석에 용이하다.

양적연구

사실이나 원인을 탐구하는 논리실증주의 입장

강제된 측정과 통제된 측정

확증적 & 추론적 & 연역적

일반화할 수 있다.(복수사례연구)

대규모 분석에 용이하다.

 

 

뭐가 더 낫다의 문제가 아닌, 상호보완적인 관점으로 바라봐야한다.

 

 


- 접근방법에 의한 분류

횡단적 연구

<가로>

표본조사

측정이 한 번 이루어진다.

정태적이다.

표본의 크기가 클수록 좋다.

종단적 연구

<세로>

현장조사

측정이 반복적으로 이루어진다.

동태적이다.

표본의 크기가 작을수록 좋다.

 

 

횡단적 연구)

특정 시점에서 집단 간의 차이를 연구하는 방법으로 특정 시점에서 다른 특성을 가지고 있는 집단들 사이의 차이를 측정하는 방법이다.

- 수집된 자료의 일정 시점에서의 한 집단 또는 사례들의 특징을 나타낸다.

- 언론기관의 여론조사나 인구&주택센서스 같은 현황조사를 위한 설계 등에서 사용된다.

 

 

종단적 연구) →

추세조사, 코호트조사, 패널조사

하나의 연구대상을 일정 기간동안 관찰하여 그 대상의 변화를 파악하는데 초점을 둔 기술적 방법.

둘 이상의 시점에서 동일한 분석단위를 연구하는 것으로, 어떤 대상의 동태적 변화 연구에 적합

 

추세조사)

동일한 전체 모집단 내의 변화를 여러시기에 걸쳐 표본을 추출하여 계속적으로 연구

어떤 광범위한 연구상의 특정 속성을 여러 시기를 두고 관찰&비교하는 것

 

 
코호트조사 - 동년배연구)

동기생 & 동시경험집단 연구에 해당한다.

특정 경험을 같이 하는 사람들이 가지는 특성

들에 대해 두 번 이상의 다른 시기에 걸쳐서 비교

ex) 특목고에 입학한 학생들을 대상으로 2012~17년까지의 자존감 변화를 연구하기위해 매년 표본추출 조사시행

 

 

패널조사)

동일집단 반복연구에 해당한다.

'패널'이라 불리는 특정 응답자 집단

을 정해놓고 그들로부터 상당히 긴 시간동안 지속적으로 연구자가 필요로 하는 정보를 획득하는 방법이다.

ex)공공기관의 행정서비스 만족도를 알아보기 위해 동일한 시민들을 표본으로 6개월 단위로 10년간 조사

 

 

 


- 목적에 의한 분류

 

탐색적 연구)

조사설계를 확정하기 이전 연구문제의 발견, 변수규명, 가설도출 등을 위해

예비적으로 실시

보통 연구문제에 대한 사전지식이 부족하거나 개념을 보다 분명히 하기위해 실시한다.

- 정확한 조사연구 및 가설 설계를 위한

명제 정립

을 목적으로 한다.

- 조사설계를 확정하기 이전

타당도를 검증

하기 위해 실시한다.

- 문헌연구, 경험자연구, 사례연구

 

 

기술적 연구)

어떤 현상에 대한 탐구와 명백화, 즉

현상을 정확하게 기술하는 것을 주 목적

으로 한다.

어떠한 사건이나 현상의 크기, 비율, 수준 등에 대한 단순 통계적인 자료를 수집하여 답을 구한다.

- 발생빈도와 비율을 파악할 때 사용, 상관관계 및 상황변화에 대한 각 변수 간의 반응을 파악.

-

탐색적 연구와 달리 연구문제 및 가설을 설정한 후 실시되므로 계획적이고 체계적이다.

- 연구집단에 대한

정확한 정보가 필요할 때

에 주로 활용된다.

- 물가조사, 국제조사 등의 사회적 문제에 대해 정확한 실태파악을 하여 정책적 대안을 마련목적

-

횡단적, 종단적 연구로 구분된다.

 

 

설명적 연구)

어떤 사실과의 관계를 파악하여

인과관계를 규명하거나 미래를 예측하는 조사이다.

'왜'에 대한 대답을 제공하는 조사이며, 현상에 대한 단순기술이 아닌, 인과론적 설명을 전개한다.

사회적 문제의 발생원인을 밝히고, 이를 해결하기 위한 정책대안을 마련하기 위해 널리 사용.

 

 


- 기타연구 유형

 

 

서베이조사)

기술적 연구의 일종으로, 모집단을 대상으로 추출된 표본에 대해 설문지와 같은 표준화된 조사도구를 사용하여 직접 질문

- 전수조사가 아닌, 표본조사에 해당하며, 실험이 아닌 질문지나 면접조사표를 이용

- 엄격한 표본추출절차, 조사&연구의 전체적인 설계 및 실시, 조사 문제의 개념정의 및 특정화.

 

장점

풍부한 자료

정확성이 비교적 높음

자료의 범위가 넓다.

 

단점

획득된 정보는 피상적이다.

실태조사는 시간과 비용이 많이 든다.

고도의 조사지식과 기술을 요구

 

 

사례조사)

특정 사례를 조사하여 문제를 종합적으로 파악하고, 그에 대한 실증적인 분석을 실행

소수 조사대상이 시간의 경과에 따라 어떠한 특징적 변화 양상을 보이는지 →

종단적 연구

기존 문서의 분석이나 관찰 등과 같은 방법으로 자료를 수집하며, 탐색적 목적으로 유용

장점

비교적 소수의 대상에 대한 자연적 발전이나 생활사 연구유용

가치적 측면의 파악이 가능

구체적이고 상세한 연구 유용

관련 변수 모를경우 탐색적 작업으로 사용가능

 

단점

조사의 폭과 깊이가 불분명 → 분석영역의 정확한 설정이 어렵다.

대표성이 불분명하고 일반화 가능성이 낮다.

자료의 신뢰성을 확보하기 어렵다.

조사자의 가치&주관 개입 가능성 높다.

 

조사연구의 설계

 

  • 조사설계의 이해

조사설계란 가설을 평가하기 위한 구조, 계획 및 전략이라고 할 수 있다.

 

- 인과관계의 확인

 

시간적 선후관계)

원인이 되는 사건이나 현상이 시간적으로 결과보다 먼저 발생해야 한다.

 

 

동시변화성(공변성)의 원칙)

원인이 되는 현상이 변화하면, 결과적인 현상도 항상 같이 변화해야 한다.

 

 

비허위적 관계)

외부의 영향력을 배제한 상태에서 순수하게 두 변수만의 관계를 볼 수 있어야 한다.

 

 

  • 조사설계의 타당도

 

내적 타당도)각 변수 사이의 인과관계를 추론하여 그것이 실험에 의한 진정한 변화에 의한 것인지를 판단.

인과조건의 충족 정도를 말한다.

 

 

- 타당도 저해요인

1)외부사건

연구기간 동안 천재지변이나 예상치 않았던 사건과 같이 특정 사건이 일어나는 경우, 환경이 바뀌고 이에 따라 다른 결과가 나타날 수 있다.

 

2)성숙 또는 시간의 경과

시간의 흐름에 따라 연구대상이나 현상에 변화가 발생함으로서 결과에 영향을 미친다.

 

- 외부사건과 성숙은 다른 개념임.

 

3)통계적 회귀

최초의 측정에서 양 극단적인 값을 보인 결과가 이후 재측정의 과정에서 평균값으로 회귀한다.

 

4)검사요인(주시험효과,테스트효과)

측정이 반복되면서 얻어지는 학습효과로 인해 실험대상자의 반응에 영향을 미친다.

 

5)선별요인(선택요인)

실험집단과 통제집단을 선별할 때 편견을 가짐으로써 발생한다.

 

6)도구요인

측정자의 측정도구가 달라짐으로 인해 결과에 영향을 미친다.

 

7)상실요인

조사기간 중 특정 실험대상인이 탈락함으로서 결과에 영향을 미친다.

 

 

- 내적 타당도를 놓이는 방법

무작위할당(Random assigment)

어느 하나의 대상이 실험집단이나 통제집단에 할당될 동일한 기회의 조건을 가진 상태로 두 집단 중 하나에 배정하도록 한다는 것이다. → 양 집단에서 뽑힐 동일한 확률을 부여

 

 

짝짓기(Matching)

실험집단과 통제집단을 동일하게 하기 위해 주요 변수들을 미리 알아내어 분포가 똑같이 나타나도록 처치

모든 특성, 요인, 조건, 변수 등에서 정확하게 서로 똑같은 대상들을 둘씩 골라 집단구분.

 

 


외적 타당도)연구의 결과에 의해 기술된 인과관계가 연구대상 이외의 경우로

확대&일반화될 수 있는 정도

 

 

- 타당도를 저해하는 요인

1)표본의 대표성

연구의 제반 조건들이 모집단의 일반적인 상황과 유사해야 결과 일반화 가능

 

2)실험조사에 대한 반응성(호손 효과)

실험대상자 스스로 실험의 대상이 되고 있음을 인식할 때 나타나는 의식적 반응

 

3)플라시보 효과(위약효과)

거짓약을 진짜 약으로 가장하여 환자에게 복용하였을 때, 환자의 병세가 호전됨;;

 

4)검사의 상호작용 효과

 

5) 표본의 편중

 

 

- 외적 타당도를 높이는 방법

 

표본의 대표성 높이기

무작위할당을 통해 표본자료가 모집단의 특성을 충분히 반영하고 있는지를 확인.

 

조사반응성(반응효과, 호손효과)을 줄인다.

 

 

  • 실험적 조사설계의 이해

실험은 엄격히 통제된 상황에서 두 변수 사이의 인과관계를 검증하는 것이다.

- 연구가설의 진위여부를 확인하는 절차이며, 내적 타당도를 확보하기 위한 노력

- 실험의 검증력을 극대화하고자 하는 시도이다.

 

인과관계를 추리하기 위해

실험집단과 통제집단

으로 나누고, 실험집단에 자극을 가하여 나타난 결과를 통제집단과 비교하는 방식이다.

 

 


- 실험적 조사설계의 구성요소

독립변수의 조작, 무작위할당, 외생변수의 통제

 

 

1) 외생변수의 통제

독립변수와 종속변수 이외의 종속변수에 영향을 미칠 수 있는 변수의 영향을 제거한다.

 

 

외생변수 통제방법

제거: 외생변수로 작용할 수 있는 요인이 실험상황에 개입되지 않도록 하는 것.

 

상쇄

:

외생변수가 작용하는 강도가 동일하지 않은 상황일 때 서로 다른 실험을 실시함으로써 외생변수의 영향을 제거한다.

 

무작위: 조사대상에 양 집단에서 뽑힐 동일한 확률을 부여함으로써 변수를 통제

 

짝짓기:

실험&통제집단을 동일하게 하기 위해 주요 변수들을 미리 알아내어 실험집단과 통제집단에서 그것들의 분포가 똑같이 나타나도록 하는 것이다.

 

 

 

2) 무작위할당

내적 타당도를 확보하기 위해 기본적으로 실험집단과 통제집단의 동질성이 요구된다.

 

 

3) 독립변수의 조작

인과성과 시간적 선행성을 입증하기 위해 독립변수의 조작이 필요하다.

"만약 x가 y의 원인이라면, x의 변화를 유도할 때 y의 변화가 뒤따른다"

 

 

  • 실험적 조사설계의 유형

순수실험설계 > 유사실험설계 > 진실험설계 > 사후실험설계

 

 

1)순수실험설계

실험집단과 통제집단에 대한 무작위할당, 독립변수 조작, 외생변수의 통제 등 실험적 조건 갖춘 설계

내적 타당도를 저해하는 요인들을 최대한 통제한 설계유형 —>

상업적 연구보다 학문적 연구

 

- 통제집단 사전사후 검사설계

무작위할당

으로 실험집단과 통제집단 구분 → 실험진단에 독립변수 조작, 통제집단 조작 x

개입 전 종속변수의 측정을 위한 사전검사 실시 후, 조작 가함

실험집단과 통제집단의 동질성 확보 및 외생변수를 통제.

내적 타당도는 높으나, 외적 타당도가 낮다.

 


- 통제집단 사후검사설계

실험대상자를 무작위로 할당한 후

사전검사 없이 실험집단

→ 조작, 통제집단 → 조작 x

사전검사의 영향을 제거할 수 있으며, 통제집단 전후비교설계에 비해 간단, 비용 단축

종속변수의 측정결과를 단지 독립변수의 조작에 의한 결과라고 단정짓기 어렵다.

사전검사를 하지 않으므로 실험집단과 통제집단의 동질성을 확신할 수 없다.

 


- 솔로몬 4집단 설계

연구대상을 4개의 집단으로 무작위할당 → 통제집단 전후비교설계, 사후비교설계 혼합.

사전검사를 한 2개의 집단 중 하나와 사전검사를 하지않은 2개의 집단 중 하나를 실험처치하여 실험집단으로 하며, 나머지 2개의 집단에 대해서는 통제집단으로 둔다.

실험집단 및 통제집단의 선정과 관리가 어렵고 비경제적이다.

 


- 요인설계

실험집단에 둘 이상의 프로그램을 실시하여 독립변수가 복수인 경우 이용하는 방법이다.

개별 독립변수와 종속변수, 복수의 독립변수와 종속변수의 인과관계를 검증한다.

 

 

 


2)유사실험설계

실험설계의 기본요소 중 한두 가지가 결여된 설계유형이다.

 

무작위할당 등에 의해 실험집단과 통제집단을 동등하게 할 수 없는 경우, 무작위할당 대신 실험집단과 유사한 비교집단을 구성한다.

순수실험설계에 비해 내적 타당도가 낮지만, 현실적으로 실험설계에 있어 인위적인 통제가 어렵다는 것을 감안할 때, 실제 연구에서 더 많이 사용된다.

- 비동일 통제집단

 

- 단순시계열설계

 

- 복수시계열설계

 

- 회귀불연속설계

 

 

 

 


3)전실험설계(원시실험설계)

무작위할당에 의해 연구대상을 나누지 않고, 비교집단 간의 동질성이 없으며, 독립변수의 조작에 따른 변화의 관찰이 제한된 경우에 실시하는 설계유형.

인과적 추론이 어려운 설계로서, 내적&외적 타당도를 거의 통제하지 못한다.

- 1회 사례연구

- 단일집단 사전사후검사설계

- 정태적 집단 비교설계

 

 

 


4)사후실험설계

독립변수를 조작할 수 없거나 연구대상을 조건에 따라 설계하기 어려운 경우에 사용된다.

독립변수를 조작할 수 없는 상태 또는 이미 노출된 상태에서 변수들 간의 관계를 검증

독립변수에 대한 통제가 윤리적으로 바람직하지 않을 때 사용한다.

실제 상황에서 검증하기 떄문에 일반적인 실험설계에 비해서 현실성이 높은 결과를 얻을 수 있다.

 

 

연구의 요소

 

  • 개념

개념은 일정하게 관찰된 현상을 대표할 수 있는 추상적 용어로 표현한 것을 말한다.

 

- 개념의 구체화 과정: 개념의 정의(개념화) → 조작적 정의(조작화) → 현실세계(변수의 측정)

 

 

1)개념적 정의(사전적 정의)

연구대상이 되는 사람 또는 사물의 행태 및 속성, 다양한 사회적 현상들을 개념적으로 정의

하나의 개념을 정의하기 위해 다른 개념을 사용함으로써

그 자체로 추상적 & 일반적 & 주관적 양상

.

단정적이어야 하며, 중의성을 띠어서는 안된다.

추상성으로 인해 사람마다 다르게 나타날 수 있으며, 그로 인해 추상적으로 정의된 개념으로서의 가설에 대해 실증적인 검증을 하기는 어렵다.

 

 


2)조작적 정의

추상적인 개념들을 경험적 & 실증적으로 측정이 가능하도록 구체화한 것이다.

될 수 있는 한 실행 가능하고 관찰 가능한 조작을 좀 더 명확하게 표현한 용어로 구성된 것이며, 확인이 가능한 정의에 불과하다.

조작적 정의의 기능으로 재생가능성을 들 수 있다. → 상당히 실용주의적이며 최종 산물은 수량화!

 

 


3)재개념화

주된 개념에 대한 정리 & 분석을 통해 개념을 보다 명백히 재규정하는 것을 말한다.

개념의 한정성을 높여 관찰 및 측정을 가능하게 하며, 주된 개념적 요소를 알 수 있도록 해준다.

 

  • 이론

현상에 대한 설명과 예측을 목적으로 변수 간의 관계를 밝힘으로써 그 현상에 대한 체계적인 견해를 제공하는 일련의 상호 연결된 개념 및 정의 또는 명제이다.

→ 경험적으로 검증이 가능하고 법칙적인 일반성을 포함하는 일련의 진술

 

- 이론의 기능

1) 과학의 주요방향 결정

2) 현상의 개념화 및 분류화

3) 요약

4) 사실의 예측 및 설명

5) 지식의 확장

6) 지식의 결함 지적.

 

  • 변수

 

- 변수의 종류

독립변수: 연구자에 의해 조작되는 변수이자 원인을 가져다주는 기능을 하는 변수.

종속변수: 독립변수의 원인을 받아 일정하게 전제된 결과를 나타내는 기능을 하는 변수.

 

외생변수

:

독립변수와 종속변수 간에 상관관계가 있는 것처럼 보이지만 실제로는 두 변수가 우연히 어떤 변수와 연결됨으로써

마치 인과적 관계가 있는 것처럼 보이도록 하는 모든 변수

 

매개변수

:

독립변수와 종속변수 간에 직접적인 관련이 없으나 제 3의 변수가 두 변수의 중간에서 매개자 역할을 하여 두 변수 간에 간접적인 관계를 맺도록 하는 변수

→ 독립변수의 결과인 동시에 종속변수의 원인이 된다.

 

선행변수:

인과관계에서 독립변수에 앞서면서 독립변수에 유효한 영향력을 행사하는 제3의 변수

선행변수를 통제해도 독립변수와 종속변수 사이의 관계는 사라지지 않지만, 독립변수를 통제하는 경우에는 선행변수와 종속변수 사이의 관계는 약화되거나 사라진다.

 

억압변수:

두개의 변수 간에 상관관계가 있으나 그와 같은 관계가 없는 것처럼 보이게 하거나 약화시키는 제 3의 변수이다. <있는데 없는것처럼 보이게 함>

두 개의 변수에 대해 각각 긍정적 & 부정적으로 상관되어 변수간의 관계를 억압함으로서 '가식적 영관계'를 형성한다

 

허위변수:

두 개의 변수 간에 상관관계가 없으나 관계가 있는 것처럼 보이게 하는 제 3의 변수

<없는데 있는것처럼 보이게 함>

 

왜곡변수: 두 변수 간의 관계를 어떤 식으로든 왜곡시키는 제 3의 변수이다.

 

통제변수:

독립&종속간의 관계를 명확히 파악하기 위해 그 관계에 미칠 수 있는 제 3변수를 통제하는 변수.

 

조절변수:

독립변수와 종속변수 사이의 관계에서 영향을 미칠 것으로 여겨지는 제 3의 변수.

독립변수가 종속변수에 미치는 영향을 강화해 주거나 약화해 주는 변수이다.

 

  • 가설

 

- 가설설정시 기본조건

연구문제를 해결할 수 있어야 한다.

실증적인 확인을 위해 구체적이어야 하며 현상과 관련성을 가져야한다.

변수로 구성되며, 그들 간의 관계를 나타내고 있어야 한다.

문장을 조건문 형태의 복문으로 나타내야 한다.

표현은 간단명료하며, 경험적&이론적으로 검증 가능해야 한다.

검증결과는 광범위하게 적용될 수 있어야하며, 계량화할 수 있어야 한다.

 


- 가설의 평가기준

1)경험적 검증가능성

2)간결성

3)계량화 가능성

4)입증의 명백성

5)가설 자체의 개연성

6)가치중립성

 


- 가설의 종류

1)식별가설

어떤 사실에 대한 원인의 규명이 아닌, 그 사실의 성질과 기능 그리고 형태를 묘사하기 위한 가설

- 사물의 성질이나 형태의 강도, 크기, 정도, 위치, 분포 등을 제시한다.

- 분석을 통해 사물의 구조 또는 구성요소를 식별하고, 종합을 통해 개개의 요소들을 합함으로써 그것이 의미 있는 어떤 사물임을 식별한다.

 

2)설명적 가설

사실과 사실간의 관계를 설명해주는 가설을 말한다. "왜"에 대한 대답.

- 어떤 두 개 이상의 사물들 간의 관계의 양상에 일정한 규칙성, 즉 공통점이 있음을 말하기도 한다.

- 어떠한 사실의 인관관계, 즉 원인 또는 사실들 간의 시간적 순서, 사실들간의 작용 또는 반작용의 양상이나 크기 등을 말한다.

 

3)연구가설

연구문제에 대한 잠정적 대답이다.

경험적으로 검증 가능하도록 진술한 가설로서 '실험적 가설' 혹은 '과학적 가설'이라고 한다.

 

4)통계적가설

어떤 특징에 대해 둘 이상의 집단 간의 차이나 한 집단 내 또는 몇 집단간의 관계, 표본 또는 모집단 특징의 점추정 등을 묘사하기 위해 설정하는 것이다.

- 통계적 대립가설과 통계적 귀무가설로 구분된다.

 

5)영가설(귀무가설)

처음부터 버릴 것을 예상하는 가설로서, 의미 잇는 차이나 관계가 없는 경우의 가설

- 연구가설은 영가설이 직접 채택될 수 없을때 자동적으로 받아들여지는 가설로서 직접 검증할 필요가 없는 반면, 영가설을 직접 검증을 거쳐야 한다.

 

6)대립가설(작업가설)

영가설에 대립되는 가설로서, 영가설이 거짓일 때 채택하기 위해 설정하는 가설이다.

연구자가 주장하고자 하는 가설로서, 종종 연구가설과 동일시된다.

추정개요

표본의 특성을 나타내는 수치인 통계량을 기초로 하여 모집단의 특성인 모수를 추측하는 방법

  • 바람직한 통계적 추정량 결정기준

1)불편성(Unbiasedness) ⇒ 편의가 없는 것을 의미한다.

→ 어떤 모수의 추정량이 기댓값의 원래 모수가 되는 성질

추정량의 기대치가 추정할 모수의 실제값과 같을 때, 이 추정량은 불편성을 가졌다고 한다.

모수 θ\theta의 추정량을 θ^\hat\theta 으로 나타내면 θ^\hat\theta의 기댓값이 θ\theta가 되는 성질이다.

E(θ^)=θE( \hat{\theta}) = \theta

cf)편의: 추정하고자 하는 모수와 추정량의 기댓값과의 차이

hat표시는 추정량임을 나타내기 위함이다.


2)효율성(Efficiency)

추정량 θ^\hat\theta이 불편추정량이고, 그 분산이 다른 추정량 θ^\hat\theta i에 비해 최소의 분산을 갖는 성질이다.

Var(θ^1)Var(θ^2)일때 θ^2가 더 효율적이다Var(\hat\theta1) \geq Var(\hat \theta2)일 때 \space \hat\theta2가\space 더 \space효율적이다

3)일치성(Consistency)

표본의 크기(n)이 커짐에 따라 추정량 θ^\hat\theta이 확률적으로 모수 θ\theta에 가깝게 수렴하는 성질이다.


4)충분성(Sufficiency)

모수에 대하여 가능한 많은 표본정보를 내포하고 있는 추정량의 성질이다.

점추정

모집단으로부터 추출된 표본을 이용하여 하나의 수치로 모수를 추정하는 것을 말한다.

  • 표준오차(Standard error) = 표본평균의 표준편차

통계량의 표준편차를 표준오차라고 하며, 표준오차는 모집단의 표준편차보다 언제나 작다.

Standard Error[SE]=σnStandard \space Error[SE] = \frac{\sigma}{\sqrt n}

모집단의 표준편차가 커질수록 표준오차 또한 커진다.

표본의 크기가 클수록 표준오차는 작아진다 → 모집단에 근접해지기 때문에

표준오차가 작은 추정량이 더 좋은 추정량이라고 말할 수 있다.

cf) 표본오차 vs 표준오차

표본오차 - 모집단과 표본의 차이를 말하는 것

표준오차 - 통계량의 분포인 표본분포의 표준오차를 의미한다.


  • 모수 점추정

1)모평균의 점추정

모평균의 점추정은 표본평균과 같다. 즉, 모집단 평균 u의 불편추정량은 Xˉ\bar이다.

표본평균Xˉ모평균u표본평균 \bar \Rightarrow 모평균 u

2)모분산/ 모표준편차의 점추정

모분산의 점추정량은 표본분산과 동일하다. 모표준편차의 점추정량은 표본표준편차와 같다.

표본분산S2모분산σ2, 표본표준편차S모표준편차σ표본분산 S^ \Rightarrow 모분산 \sigma^,\space 표본표준편차S \Rightarrow 모표준편차 \sigma

모집단 분산 σ2\sigma^2의 불편추정량은 S2S^2이다.

하지만 모집단 표준편차 σ\sigma의 불편추정량이 표본표준편차 s인 것은 아니다.


3)모비율의 점추정

모비율이란 모집단 속에서 어떤 특정한 속성을 갖는 것의 비율을 의미한다.

표본비율p^모비율p표본비율 \hat \Rightarrow 모비율 p

구간추정

  • 신뢰도와 신뢰구간

신뢰수준 95%라고 함은, 동일한 추정방법을 사용하여 신뢰구간을 100회 반복하여 추정한다면, 95회 정도는 동일한 결과가 나오는 것을 의미한다. 추정량의 분포가 정규분포를 따를 때의 경우가 많음.

신뢰구간

일정한 구간을 제시하여 모수가 포함되었을 것이라고 제시한 구간을 말한다.

95%의 신뢰구간이란 신뢰구간을 100회 반복하여 측정했을 때 95번은 그 구간 내에 모평균이 포함된다는 의미이다.

u의신뢰구간=Xˉ+신뢰계수표준오차u의 신뢰구간 = \bar+-신뢰계수*표준오차

  • 표본의 크기

1)모평균 추정시 표본의 크기

추정식의 양쪽에서 D단위만큼만 벌어지는 구간을 가지려 한다고 가정.

cf) D(오차한계) = 신뢰계수 * 표준오차

오차한계 = 모평균 추정구간의 가운데에서 허용할 최대허용오차

nZ2a/2σ2D2n \geq \frac}*\sigma^2}}

2)모비율 추정시 표본의 크기

모집단의 추정에서 모비율을 모르고 있는 것이 일반적이다.

만약 모비율에 대해 대체적인 값을 알고 있으면 이를 이용하고, 불가능하다면 소규모의 예비조사로 대체적인 값을 구한다.

이값마저 알 수 없다면 p^\hat=1/2를 사용하여 표본의 크기를 결정한다.

np^(1p^)(Za/2D)2n\geq\hat(1-\hat)(\frac}})^2

표본크기 결정요인

- 신뢰도

일정한 오차의 범위 내로 신뢰구간을 설정하고자 할 때 신뢰도에 의해서 Z나 t가 결정되기 때문에 신뢰도를 높일수록 표본의 크기는 커야한다.

- 표준편차

모집단의 분산 또는 표준편차가 클수록 표본의 크기는 커야한다.

- 오차의 크기

오차를 적게 하기를 원하면 표본의 크기를 크게 해야 한다.

  • 모평균의 신뢰구간

1)모분산을 알고있을 경우

XˉZa/2σnuXˉ+Za/2σn\bar X - Z_\frac{\sigma}{\sqrt n} \leq u \leq \bar X + Z_\frac{\sigma}{\sqrt n}

2)모분산을 모르는 대표본(n≥30)일 경우

XˉZa/2SnuXˉ+Za/2Sn\bar X - Z_\frac{\sqrt n} \leq u \leq \bar X + Z_\frac{\sqrt n}

3)모분산을 모르는 소표본(n<30)일 경우

소표본일 경우에는 정규분포가 아닌, 자유도가 N-1인 T분포가 된다.

Xˉta/2SnuXˉ+ta/2Sn\bar X - t_\frac{\sqrt n} \leq u \leq \bar X + t_\frac{\sqrt n}

  • 모평균 차이의 신뢰구간

1)모분산을 알고있을 경우

두 모집단의 분포가 정규분포를 하고, 모분산이 알려진 경우 Z통계량을 이용

(Xˉ1Xˉ2)Za/2σ12n1+σ22n2u1u2(Xˉ1Xˉ2)+Za/2σ12n1+σ22n2(\bar X_1 -\bar X_2)-Z_ \sqrt {\frac{\sigma^2_1}+\frac{\sigma^2_2}} \leq u_1-u_2\leq(\bar X_1 -\bar X_2)+Z_ \sqrt {\frac{\sigma^2_1}+\frac{\sigma^2_2}}

2)모분산을 모르는 대표본(n≥30)일 경우

대포본이지만 두 모집단을 모르고 있을 경우, 모분산 대신 표본분산 사용

(Xˉ1Xˉ2)Za/2S12n1+S22n2u1u2(Xˉ1Xˉ2)+Za/2S12n1+S22n2(\bar X_1 -\bar X_2)-Z_ \sqrt {\frac{ S^2_1}+\frac} \leq u_1-u_2\leq(\bar X_1 -\bar X_2)+Z_ \sqrt {\frac+\frac}

3)모분산을 모르는 소표본(n<30)일 경우

소표본에서 두 모분산을 모르지만 같다는 것을 알고 있을 경우 자유도가 n1+n2-2인 t분포 이용.

(Xˉ1Xˉ2)ta/2, n1Spσ12n1+σ12n1u1u2(Xˉ1Xˉ2)+ta/2, n1Spσ12n1+σ12n1(\bar X_1 -\bar X_2)-t_,\space_S_p \sqrt {\frac{\sigma^2_1}+\frac{\sigma^2_1}} \leq u_1-u_2\leq(\bar X_1 -\bar X_2)+t_, \space _S_p \sqrt {\frac{\sigma^2_1}+\frac{\sigma^2_1}}
  • 모비율 / 모비율 차이의 100(1-a)% 신뢰구간

1)모비율의 신뢰구간

모비율 p의 추정량은 표본비율이며 이항분포의 정규근사를 이용한 Z통계량을 이용한다.

p^Za/2p^(1p^)npp^+Za/2p^(1p^)n\hat - Z_\sqrt{\frac{\hat(1-\hat)}} \leq p \leq \hat + Z_\sqrt{\frac{\hat(1-\hat)}}

2)두 모비율 차이의 신뢰구간

p^1p^2Za/2p1^(1p1^)n1+p2^(1p2^)n2p^1p^2p^1p^2+Za/2p1^(1p1^)n1+p2^(1p2^)n2 \hat_ - \hat_-Z_\sqrt{\frac{\hat}(1-\hat})}}+\frac{\hat}(1-\hat})}}} \leq \hat_ - \hat_ \leq \hat_ - \hat_+Z_\sqrt{\frac{\hat}(1-\hat})}}+\frac{\hat}(1-\hat})}}} 

안녕하세요 여러분. 21년도 두번째 자격증 후기입니다. 

Dasp[데이터아키텍처 준전문가]는 응시자도 적을 뿐만 아니라 정보가 별로 없어 준비가 매우 어려웠습니다.

 

저는 부산에서 시험을 쳤는데 실제 고사장은 1교실밖에 사용하지 않았으며 그것도 인원이 15명이 전부였습니다.....

정보처리기사 - 필기때랑은 너무 다른 분위기여서 살짝 당황하기도 했었네요.

 

여러모로 스트레스도 많던 시험이였는데 저같은 분들께 도움을 드리고 싶어 이번에는 좀 자세하게 후기를 적어보려고 합니다. 정보가 필요하신 분들께 도움이 됐으면 좋겠습니다.


제 46회 Dasp 데이터아키텍처 준전문가 합격

시험 결과가 바로 엊그제 나왔는데 다행히 합격을 할 수 있었습니다.

데이터자격검정의 시험들은 시험지를 가지고 나올 수 없어 기사시험과는 다르게 친 당일날 가채점이 불가능합니다. 

 

거의 1달가량 기다렸는데, 잊혀질만 하니 점수가 나오더라구욯ㅎ.... 다른 분들도 마음놓고 다른 공부하시면서 기다리시는게 제일 나을 것 같습니다.

 

개인적으로 시험준비 난이도는 다음과 같습니다.(시험 난이도가 아닌, 시험준비 난이도입니다!)

 

정보처리기사 필기- 5, Dasp - 7

 

정보처리기사의 경우에는 워낙 응시자가 많다보니 시나공, 이기적, 수제비 등 많은 참고책과 정보들이 많은 반면, Dasp의 경우에는 정보가 얼마 없다보니 준비하면서도 '내가 하고있는 방법이 맞는걸까....?' 이런 생각이 참 많이 들었습니다.

 

시험장에도 학생으로 보이시는 분들보다는 직장인 분들이 많았던 것 같습니다. 제 추측이기는 하지만, Dasp를 취득한 후 Dap자격증을 준비하시려고 하는게 아닌가 싶습니다. 

cf) Dap 자격증은 정보시스템 기술사를 준비할 때 많은 도움이 된다고 하더라구욥.

DAP/ Dasp 자격증 합격률, 2021 시험일정

DAP/ Dasp 자격증 합격률

데이터아키텍처 전문가/준전문가 합격률 - 출처: 민간자격정보서비스

DASP의 경우에는 보통 40~50정도의 합격률을 기록하고 있는것을 확인할 수 있습니다. 20년도에는 무슨일이 있었던 걸까요......

 

저는 최종목표가 DAP 자격증을 취득하는 것인데 정말 합격률이....절망적인 것을 볼 수 있습니다.

 


2021년 Dap / Dasp 자격시험 일정

각각 [접수기간, 수험표발급, 시험일, 결과발표, 증빙서류, 제출기간]입니다. 

 

올해는 3번의 기회가 더 남아있군요. 응시하시는 분들 모두 화이팅입니다.

 


준비기간, 독학 vs 인강

준비기간 - 3주

준비기간의 경우 정보처리기사 필기와 동일하게 딱 3주의 시간을 투자했습니다.

정보가 별로 없을 뿐이지, 시험 난이도가 엄청 높은 편은 아니기 때문에 정보처리기사 혹은 전공자분들 같은 경우에는 3주 정도면 적당하지 않을까 싶습니다.

 

하지만 만약 본인이 DB 혹은 데이터아키텍처에 완전 생소한 분이시라면 적어도 1달의 시간은 투자해야 될 것으로 판단됩니다. 그리고 사실 IT & 데이터 관련 첫 시험으로 Dasp는 추천드리지 않습니다.

 

그 이유는 다음과 같습니다.

 

1. 주류 자격증이 아니다.

 - 저같은 경우에는 정보처리기사를 응시한 경험이 있고 DAP 자격증을 취득하고 싶어 공부했는데, 사실 이 Dasp는 국가공인이 아닐뿐더러 DB전문 회사가 아닌 경우에는 무슨 자격증인지 모르는 사람들이 대부분이라고 합니다.

실제 저도 주변 지인분들한테 Dasp를 준비한다고하니 모르는 분들이 대부분이였습니다.


2. Input 대비 Output이 좋지않다.

다른 여러 커뮤니티에서도 이 자격증에 대한 유효성이 크지 않다는 평이 대부분이였습니다. 시험 준비과정은 어려운데 비해 인정을 크게 해주지 않으니 DAP를 목표로 하시는 학부생이 아닌 분들은 다른 자격증(Sql-d, 정보처리기사)을 취득하는게 나을거라 판단됩니다.

그럼에도 불구하고 정보처리기사, SQL-D 등 IT지원 메인 자격증을 따신 분들 중 시간이 남으시거나 데이터아키텍처에 관심이 있으신 분들은 취득하시면 도움받을 부분은 분명히 있다고 생각합니다. 실제 책을 읽으면서 저도 다른 시각으로 데이터모델링을 바라볼 수 있었습니다.

 

 

IT 관련 자격시험 처음인 분들 == 정보처리기사 -> SQL - D -> ADSP -> 만약 관심이 있다면 DASP

 


독학, 인강 - 무조건 독학

무조건 독학하시길 바랍니다. 저도 데이터모델링, 아키텍처에 관해서 무지한 경영대 학부생임에도 불구하고 충분히 취득 가능했습니다. Dasp는 초기 준비과정이 어려운 시험이지, 시험문제가 어려운 것이 아닙니다.

 

내용이 생소한 것이여서 가이드 책을 다독하게 된다면 충분히 어렵지 않게 취득이 가능하다고 생각합니다.

학원, 인강은 많은 비용이 발생하기 때문에 본인이 금전적 여유가 충분하지 않으신 분들은 전문가 가이드를 구매하셔 다독하시길 권장드립니다.

 

독학으로도 충분히 합격 가능한 시험입니다!

 


교재 선택 - 데이터아키텍처 전문가 가이드

교재 - 데이터아키텍처 전문가 가이드 + 자격검정 실전문제

교재는 무조건 데이터아키텍처 전문가 가이드와 자격검정 실전문제를 구입하셔야 합니다. 정말 무조건입니다.

 

저는 사실 맨처음에 가이드를 사기 너무 아까워서(내돈 5만원.....) 조금 더 저렴한 요약집을 구매했습니다.

진짜 정말정말 비추입니다.

 

가이드의 경우에는 내용을 읽으면서 이해가 되는 부분이 많습니다. 최대한 자세히 차근차근 설명을 해주기 때문이죠.

하지만 요약본의 경우에는 이해가 아닌, 암기를 목적으로 두고 있습니다.

특히나 4과목 데이터 모델링의 경우에는 어떤 설명도 없이 그냥 받아들이라는 느낌을 받아 정말 책을 산걸 후회했습니다.

다른 분들은 저와 같은 실수를 하지 않길 바랍니다 : ) 

 

자격검정 실전문제도 꼭 필수적으로 구매하셔야 합니다. 책만 정독할 경우에는 '이걸 어떻게 시험으로 낸다는거지'와 같은 부분들이 실전문제로 해소되기 때문에 반드시 구매하시길 바랍니다.

 


공부방법

데이터아케틱처 전문가 가이드 다독

일단 가장 우선적으로 본교재 전문가 가이드를 다독하셔야 합니다. 이때 가장중요한게 절대 대충읽으시거나 포기하시면 안됩니다. 사실 이 교재는 되게 뭐랄까.....음.. 정말 잘 안읽힙니다. 저도 이렇게까지 잘 안 읽히는 책은 대학 원서교재 이후 정말 오랜만이였던 것 같습니다. 그래도 계속해서 읽으셔야 합니다.

저는 3주중에 2주정도를 순수하게 책을 읽고 정리하는 시간으로 썻는데 전체는 2회독, 4과목 데이터 모델링의 경우에는 4회독 정도 진행했습니다.

제가 생각하는 과목별 암기사항과 주목도는 다음과 같습니다.

 

제 1과목. 전사아키텍처 이해

정말 순수 암기 100%입니다. 이해라고 할만한 것이 별로 없으며 그냥 처음에 읽으면 '아 그렇구나~'로 직관적으로 받아들여 지는 부분입니다. 다만 시험에서는 암기를 요구하는 부분이니 이쪽 파트 내용들은 반드시 암기를 잘 해주셔야 합니다.


제 2과목. 데이터요건 분석

 여기는 뭐랄까..... 데이터 모델링 영역이라기 보다는 비즈니스 상에서 요구사항 요건들이 어떻게 수집 & 처리되어야 하는가를 다루는 내용이여서 살짝 문과영역같다고 느낀 부분이였습니다. 제 1과목에 비교하면 이해해야할 부분이 많지만 여전히 암기내용이 많은 과목입니다.


제 3과목. 데이터 표준화

제가 개인적으로 가장 힘들어했던 부분입니다. 약간 내용이 꼬리에 꼬리를 무는 형식이여서 거시적인 흐름을 잡아나가시는 것을 추천드립니다. 그냥 나오는 내용을 보기만 하는 것이 아니라, 세부 영역 어디에 해당하는지 그리고 그 상위개념은 무엇인지와 같은 부분들을 꼭 잘 잡아나가셔야 합니다.


제 4과목. 데이터 모델링

이 부분은 이해가 70~80%를 차지하는 과목입니다. 중요한 것은 정확하게 알고 있어야 한다는 것입니다. 몇번 보다가 '아 이제 좀 알 것 같네~' 여기서 멈추지 마시고 정확하게 어떤 개념으로 어떤 문제를 해결할 수 있는지, 그 방법은 무엇인지와 같은 부분들을 살피시길 추천드립니다.

 


정리 - Notion 이용

저는 이전 포스팅 정보처리기사 필기때와 동일하게 Notion플랫폼을 이용해 정리해나갔습니다.

저는 Notion 덕을 톡톡히 보고 있는 중인데, 저와 비슷한 성향을 가지신 분들에게는 노션을 추천드립니다.

 

1. 무조건 쓰면서 공부하는 사람

저는 사실 공부는 무조건 노트정리와 꾸준히 쓰면서 해야한다고 생각하는 사람입니다. 하지만 글로 직접 적으면서 정리하는데는 시간이 오래 소요되므로 노션을 사용하시면 비교적 적은 시간에 원하는 퀄리티를 낼 수 있을 것이라고 생각됩니다.

 

2. 정리를 하는데 시간을 오래 쓰는 사람

저는 사실 노트정리를 하는데 있어 굉장히 신경을 많이 쓰는 편입니다. 글씨나 형광펜, 색깔펜 등 공부 외적인데 시간을 많이 들여 항상 시간을 더 소요하고는 합니다. 

저같은 경우에는 Notion을 타자를 통해 빠르게 내용을 정리한 후, 공책에다가 마음대로 필사하며 학습했고, 이게 저랑 가장 잘 맞는 방법이라고 생각합니다. 

노션 Dasp 페이지 목차

모든 부분을 다 정리할 필요도 없으며, 본인이 어렵다고 생각하거나 정리해놓아야겠다고 하는 부분만 따로 할 수도 있으니 이만한 플랫폼이 없다고 저는 생각합니다. 정리를 반드시 하셔야한다는 분들에게는 꼭 추천드립니다!

 

 

정보처리 기사 포스팅과 동일하게 한 챕터의 파일을 공유합니다. 만약 어떻게 정리해야할지 모르겟는 분들은 아래의 파일을 참고하셔서 정리하면 좋을 것 같습니다

 

4_20.pdf
1.59MB

 

 

확률 및 확률변수

  • 확률

- 확률의 정의

  1. 고전적 방법

    어떤 실험의 가능한 결과가 모두 n가지이고, 각 결과가 나타날 가능성이 모두 동일하고, 서로 중복되지 않는다고 할 때 사상 A에 속하는 결과가 a가지이면 사건 A의 확률은 a / n으로 정하는 법

  1. 경험적 확률(상대도수에 의한 방법)

    충분히 많은 횟수의 반복 시행에서 어떤 사상의 확률로 정하는 방법.

    경험적인 결과에 기초를 두어 정하는 확률을 흔히 경험적 확률이라고 한다.


- 표본공간과 사상

표본공간:

한 실험에서 나타날 수 있는 가능한 모든 결과의 집합 S이다. 즉, 시행에 의하여 일어날 수 있는 가능한 모든 결과로 된 집합을 말한다.

사상:

표본공간의 부분집합을 의미한다.

공사상: 표본공간의 어떤 원소도 갖고 있지 않은 사상이다.

여사상: 사상 A가 일어나지 않을 사상으로 A여집합으로 나타낸다.

배반사상: A와 B 두 사상이 동시에 일어날 수 없는 사상이다. (A와B의 교집합 X)

독립사상: A와 B 두 사상이 서로 영향을 미치지 않으면 두 사상 A와 B는 독립이다.

독립: P(AB)=P(A)P(B)P(A \cap B) = P(A)P(B)


- 조건부 확률

한 사건이 일어날 것을 전제로 다른 사건이 일어날 확률에 관한 것으로 일반적으로

P(AB)P(BA) P(A\mid B) \neq P(B\mid A) 

조건부확률에서는 두 변인이 상호독립인지가 매우 중요한 포인트이다.

  • 순열과 조합

- 순열

n개의 원소로 된 집합으로부터 한 번에 x개의 원소를 선택하여 이들 간에 순서를 정하여 늘어놓는 방법을 순열이라고 한다.

- 조합

n개의 원소로 된 집합으로부터 한 번에 x개의 원소를 순서에 관계없이 비복원으로 선택하는 방법을 조합이라고 한다.

- 중복조합 → 은근히 헷갈리는 단원

서로 다른 m개 중에서 중복을 허락하여 k개를 선택하는 조합의 수

  • 확률변수

확률변수는 어떤 실험의 단순 사상들에 각각 하나의 숫자를 부여한 것이다. 또한 확률변수는 그것이 가지는 숫자들의 성질에 따라 이산확률변수와 연속확률변수로 분류할 수 있다.

- 이산확률변수

확률변수가 어떤 구간 내의 특정한 값만을 취하는 경우를 말한다.

- 연속확률변수

어떤 구간 내의 임의의 값을 취할 확률을 말한다.

1)기댓값

평균과 같은 것으로 확률변수가 취할 수 있는 각 값에 해당하는 확률을 곱하여 모두 더하는 것이다.

실험을 지속적으로 반복했을 때 평균적으로 기대할 수 있는 값으로 확률변수의 중심화 경향치를 나타내는 특성치를 말한다.

E(X)=[xp(x)]E(X) = \sum [x * p(x)]


2)분산

확률변수의 산포도를 나타내는 특성치가 분산과 표준편차이다.

Var(X)=x2p(x)[E(x)]2Var(X) = \sum x^p(x) - [E(x)]^

Var(X)=E(x2)[E(x)2]Var(X) = E(x^) - [E(x)^]

- 분산의 성질

Var(X + Y) = Var(X) + Var(Y) + 2Cov(X,Y) <Cov는 공분산을 의미한다>

Var(X - Y) = Var(X) + Var(Y) - 2Cov(X,Y)

확률분포

  • 확률분포 일반

확률변수의 성격을 나타내는 것으로, 표본공간에 나타나는 모든 값들과 그 값에 대응하는 확률을 동시에 표시한 것을 말한다.

- 이산확률분포

확률변수가 이산변수인 경우로 이항분포, 포아송분포, 초기하분포, 기하분포, 다항분포

- 연속확률분포

확률변수가 소수점의 값을 포함하는 실수영역으로, 정규분포, 표준정규분포, T,F,카이제곱,지수분포

  • 이산확률분포

1)이항분포

확률실험에서 나타날 수 있는 기본결과가 두 가지뿐일 경우이다.

어떤 시행에서 사건 A가 일어날 확률을 p, 사건 A가 일어나지 않을 확률을 q(q= 1-p)라 하고 이 시행을 독립적으로 n회 반복할 때, 그 중에서 x회만 A가 일어날 확률은

B(n,p) = nxCpxqnx_^\textrmp^q^

- p가 1/2에 가까워짐에 따라 그래프는 좌우대칭의 산 모양 곡선이 된다.

- p < 0.1이고 n > 50일 때는 포아송분포에 근사된다.

- 이항분포의 정규근사치

np ≥5 또는 n(1-p) ≥ 5일 경우 평균이 np이고 분산이 np(1-p)인 정규분포와 비슷한 모양이 된다.

시행횟수 n이 클 때에는 정규분포를 이용하여 이항확률의 근사치를 구할수가 있다.


2)베르누이 시행

각 시행의 결과는 상호 배타적인 두 사건으로 구분된다. 즉, 성공 또는 실패이다.

각 시행은 서로 독립적이다.

베르누이 시행을 n번 독립적으로 반복시행했을 때의 확률변수 X를 성공(X=1) 또는 실패(X=0)이라 하면 X의 분포는 이항분포를 따르며 확률밀도함수 f(x)는 다음과 같다.

f(x)=px(1p)nx=pxqnxf(x) = p^(1-p)^ = p^q^


3)포아송분포

일반적으로 단위시간, 단위면적 또는 단위공간 내에서 발생하는 어떤 사건의 횟수를 확률변수 X라 하면, 확률밀도 X는 람다값을 모수로 갖는 포아송분포를 따른다고 한다.

f(x)=eΛΛxx!f(x) = \frac\Lambda^}

- 포아송분포의 성립조건

독립성:

발생하는 사건의 횟수는 서로 중복되지 않는다.

비례성:

사건이 한번 발생할 확률은 시간길이 또는 면적에 비례한다.

비집락성:

짧은 시간 동안 또는 작은 영역 내에서 사건이 두 번 이상 발생할 확률은 매우 작기 때문에 무시할 수 있다.


4)기하분포

단 한번의 성공을 위해 실패를 거듭해야 하는 경우 기하분포를 이용한다.

f(x)=pqx1,x=1,2,3...q=1pf(x) = pq^, x= 1,2,3... q=1-p

E(X) = 1/ P , Var(X) = q / p^2

  • 연속확률분포

1)정규분포

표본을 통한 통계적 측정 및 가설검증이론의 기본, 여러가지 다른 분포에 대해서 근사값을 제공

특징)

평균과 표준편차에 의해 그 위치와 모양이 결정된다.

첨도는 3이며, 왜도는 0이다. cf)왜도 - 비대칭 정도, 첨도 - 분포의 중심이 얼마나 뾰족한지.

산술평균(Xˉ\bar) = 중위수(MeM_) = 최빈값(MoM_)

정규분포곡선은 x축과 맞닿지 않으므로 확률변수가 취할 수 있는 값의 범위는 무한대이다.

이항분포의 확률 근사치를 계산하는데 매우 유용하다.

개별치의 확률분포가 정규분포가 아니더라도, 표본이 커질수록 그 분포는 정규분포에 가까워진다.


2)표준정규분포

다른 평균과 표준편차를 가진 정규분포를 비교하기 위해서는 표준화를 해주어야 한다.

- 표준화(Standarization)

평균이 0이고, 표준편차가 1이 되도록 해주는 작업이다.

Z=Xuσ, Z N(0,1)Z = \frac{\sigma},  Z\sim  N(0,1)


3)T-분포

자유도에 따라 모양이 변하며, 0을 중심으로 하는 좌우대칭형, 자유도가 무한대일 경우에는 표준정규분포에 근사한다.

- 특징

평균은 0이고, 평균을 중심으로 좌우대칭이다.

일반적으로 분산은 1보다 크나, 표본수가 커질수록 1에 접근한다.

자유도에 따라 제각기 다른 모형이며, 자유도가 클수록 중심부가 더 솟은 모양이 된다.

정규분포보다 꼬리가 두꺼우며 첨도는 3보다 크다.

표본의 크기 n이 30보다 작을 때 사용

모평균, 모평균의 차 또는 회귀계수의 추정&검정에 주로 사용된다.


4)F-분포

확률변수 X가 자유도(m,n)인 F-분포를 따를 때 다음과 같이 표현된다.

- 특징

왼쪽으로 비스듬히 기울어져 있지만 그 정도는 자유도가 증가함에 따라 대칭성에 가까워진다.

항상 양의 값을 가지며 오른쪽 긴 꼬리 비대칭분포 형태를 이루고 있다.

표본분산과 모분산과의 관계를 이용하여 모분산비에 대한 추론을 하는 데 사용한다.

두 집단의 분산동질성 검정에 사용된다.

확률변수 X가 F(m,n)을 따를 때 1/X 분포는 F(n,m)을 따른다.


5)카이제곱 분포

자유도의 크기에 따라 분포의 모양이 변하고, 자유도가 커지면 대칭에 가까워지는 분포이다.

- 특징

왼쪽으로 기울어진 연속형 분포이며 자유도가 커질수록 오른쪽으로 폭넓게 기울어지는 모양을 나타내며 정규분포에 근접한다.

Z~N(0,1)의 제곱 Z2Z^2는 자유도가 1인 카이제곱분포를 따르며,

자유도가 N인 카이제곱분포의 평균은 n이며, 분산은 2n이다.

모분산이 특정한 값을 갖는지 여부를 검정하는데 사용되며 → 독립성 검정 & 적합성 검정에 사용.

  • 표본분포와 중심극한정리

- 표본분포

모집단으로부터 채택된 일정한 크기의 표본들을 대상으로 분석한 결과 타나난 통계량들의 분포

가) 모집단분포가 정규분포가 아닐 때 표본평균의 분포


모집단의 분포가 정규분포가 아닐 경우 표본평균 Xˉ\bar가 정규분포를 따른다고 할 수 없다.

하지만, 표본의 크기가 충분힐 클 때는 Xˉ\bar의 분포는 정규분포로 볼 수 있다. → 중심극한정리

cf)중심극한정리(Central limit theorem)

표본의 크기가 n≥30이면 대표본으로 간주하고 모집단의 분포와 관계없이 표본평균 Xˉ\bar의 분포는 N(u,σ2n) N(u,\frac{\sigma ^}) 정규분포에 근사한다.

나) 모집단분포가 정규분포 & 무한모집단(복원추출)에 의한 표본평균의 분포


모집단분포가 정규분포를 따를 때, 표본평균의 분포도 정규분포를 따른다.

N(u,σ2n)N(u,\frac{\sigma ^})

표본평균 Xˉ\bar를 표준화시킨 표준화 확률변수 Z는 표준정규분포 N(0,1)을 따른다.

Z=(ˉX)uσ/nZ = \frac{ \bar(X)-u}{\sigma / \sqrt}

- 표본분포의 평균

선택 가능한 모든 표본들로부터 계산된 평균들의 확률분포를 말한다.

표본평균들의 표본분포의 전체 평균은 모집단의 평균과 같다.

표본평균들의 표본분포는 정규분포를 이룬다.

  • 체비세프 부등식

평균과 분산의 정보를 이용하여 확률추정 → 확률분포가 주어지지 않은 상황에서 확률을 추정

P(Xukσ)11k2P(\left | X-u \right | \leq k\sigma) \geq 1- \frac

표본의 평균으로 모평균이 속해있는 구간을 추정할 때 확률변수의 값이 평균으로부터 표준편차의 일정 상수배 이상 떨어진 확률의 상한값 또는 하한값을 제시해준다.

대량 데이터에 따른 성능

대량의 데이터가 하나의 테이블에 집약되어 있고 하나의 하드웨어 공간에 저장되어 있으면 성능저하를 피하기 힘들다.

  • 로우체이닝(Row chaining)현상

로우길이가 너무 길어서 데이터 블록 하나에 데이터가 모두 저장되지 않고 두개 이상의 블록에 걸쳐 하나의 로우가 저장되어 있는 형태.

  • 로우마이그레이션(Row migration)현상

데이터 블록에서 수정이 발생하면 수정된 데이터를 해당 데이터 블록에서 저장하지 못하고 다른 블록의 빈 공간을 찾아 저장하는 방식.

대량 데이터 처리방법 → 파티셔닝 - Partitioning

- LIST Partitoning

지점, 사업소, 사업장, 핵심적인 코드값 등으로 PK가 구성되어 있고 대량의 데이터가 있는 테이블이라면 LIST Partitioning 적용가능

하나의 테이블에서 데이터를 처리하기에는 SQL문장의 성능이 저하되어 지역을 나타내는 사업소코드 별로 적용

→ 대용량 데이터를 특정값에 따라 분리 저장할 수는 있으나 RANGE와 같이 데이터 보관주기 따라 쉽게 삭제하는 기능은 제공될 수 없다.

- RANGE Partitioning

요금테이블에 PK가 요금일자+요금번호로 구성되어 있는 경우. 요금의 특성상 항상 월단위로 데이터 처리를 하는 경우가 많으므로 PK인 요금일자의 년+월을 이용하여 12개의 파티션 테이블 생성.

가장많이 사용되는 파티셔닝 기법이며 대상 테이블이 날짜 또는 숫자값으로 분리가 가능하고 각 영역별로 트랜잭션이 분리된다면 RANGE를 사용하는 것이 유리하다.

RANGE 파티셔닝은 데이터보관주기에 따라 테이블에 데이터를 쉽게 지우는 것이 가능하므로 테이블 관리가 매우 용이하다.

- HASH Partitioning

지정된 Hash 조건에 따라 해쉬 알고리즘이 적용되어 테이블이 분리되며 설계자는 테이블에 데이터가 정확하게 어떻게 들어있는지 알 수 없다.

분산 데이터베이스와 성능

데이터베이스를 연결하는 빠른 네트워크 환경을 이용하여 데이터베이스를 여러 지역 여러 노드로 위치시켜 사용성/성능 등을 극대화 시킨 데이터베이스라고 정의할 수 있다.


  • 분산데이터베이스의 투명성(Transparancy)

- 분할투명성

하나의 논리적 Relation이 여러 단편으로 분할되어 각 단편의 사본이 여러 site에 저장

- 위치 투명성

사용하려는 데이터의 저장 장소 명시 불필요. 위치정보가 System catalog에 저장되어 있어야 한다.

- 지역사상 투명성

지역 DBMS와 물리적 DB사이의 Mapping보장. 각 지역시스템 이름과 무관한 이름 사용가능

- 중복 투명성

DB객체가 여러 site에 중복되어 있는지 알 필요가 없는 성질

- 장애 투명성

구성요소(DBMS, Computer)의 장애에 무관한 Transaction의 원자성 유지

- 병행 투명성

다수 Transaction 동시 수행시 결과의 일관성 유지


  • 분산 데이터베이스 적용기법

- 테이블 위치 분산

테이블 위치 분산은 테이블의 구조는 변하지 않는다. 설계된 테이블의 위치를 각각 다르게 위치시키는 것이다.

ex) 자재품목은 본사에서 구입하여 관리하고 각 자사별로 자재품목을 이용하여 제품을 생산할 경우

테이블별 위치 분산은 정보를 이용하는 형태가 각 위치별로 차이가 있을 경우에 이용한다. 테이블의 위치가 위치별로 다르므로 테이블의 위치를 파악할 수 있는 도식화된 위치별 DB문서가 필요하다.

- 테이블 분할(Fragementation) 분산

단순히 위치만 다른 곳에 두는 것이 아니라 각각의 테이블을 쪼개어 분산하는 방법이다. 테이블 분할 분산 방식의 종류로는 수평&수직 분할이 있다.

- 수평분할을 이용하는 경우는 각 지사(Node)별로 사용하는 로우(Row)가 다를때 이용한다.

각 지사에 존재하는 테이블에 대해서 통합처리를 해야하는 경우는 조인(Join)이 발생하여 성능 저하가 예상되므로 통합처리 프로세스가 많은지를 먼저 검토한 이후에 많지 않은 경우에 수평분할해야한다.

한 시점에는 한 지사(Node)에서 하나의 데이터만이 존재하므로 데이터의 무결성은 보장되는 형태


- 수직분할을 이용하는 경우는 각 지사(Node)에 따라 테이블 칼럼을 기준으로 칼럼을 분리한다.

각각의 테이블에는 동일한 Primary key구조와 값을 가지고 있어야 한다.

테이블 전체 칼럼 데이터를 보기 위해서는 각 지사(Node)별로 흩어져 있는 테이블들을 조인(join)하여 가져와야 하므로 가능하면 통합하여 처리하는 프로세스가 많은 경우에는 이용하지 않는다.

- 테이블 복제(Replication) 분산

동일한 테이블을 다른 지역이나 서버에서 동시에 생성하여 관리하는 유형이다.

- 부분복제: 마스터 DB에서 테이블의 이불의 내용만 다른 지역 or 서버에 위치시키는 방법

통합된 테이블을 한군데(본사)가 가지고 있으면서 각 지사별로는 지사에 해당된 로우를 가지고 있는 형태이다. 지사에 존재하는 데이터는 반드시 본사에 존재하게 된다.

본사 데이터 = 지사 데이터들의 합

보통 지사에 데이터가 먼저 발생하고 본사에 데이터는 지사에 데이터를 이용하여 통합하여 발생된다.

- 광역복제

통합된 테이블을 한군데(본사)에 가지고 있으면서 각 지사에도 본사와 동일한 데이터를 모두 소유

본사에서 코드테이블에 데이터에 대해 입력, 수정, 삭제가 발생하고 각 지사에서는 코드데이터를 이용하는 프로세스가 발생한다. 즉 본사에서는 데이터를 관리하고 지사에서는 이 데이터를 읽어 업무프로세스를 발생시키는 것이다.

부분복제의 경우는 지사에서 데이터에 대한 입력, 수정, 삭제가 발생하여 본사에서 이용하는 방식이 많은 반면 광역복제의 경우에는 본사에서 데이터가 입력, 수정, 삭제가 되어 지사에서 이용하는 형태가 차이점이다.

- 테이블 요약(Summarization)분산

지역간에 또는 서버 간에 데이터가 비슷하지만 서로 다른 유형으로 존재하는 경우이다.

- 분석요약(Roll up replication)

각 지사별로 존재하는 요약정보를 본사에 통합하여 다시 전체에 대해서 요약정보를 산출하는 방법

- 통합요약(Consolidation replication)

각 지사별로 존재하는 다른 내용의 정보를 본사에 통합하여 다시 전체에 대해서 요약정보를 산출

- 분석요약과 통합요약의 차이점

EX)제품별 판매실적이라는 테이블이 존재

분석요약에서는 지사1과 지사2에도 동일한 제품이 취급된다. 이를 본사에서 판매실적을 집계할 경우 통합된 판매실적을 관리하는 것

통합요약의 경우에는 각 지사는 타지사와 다른 요약정보를 가지고 있고 본사에는 각 지사의 요약정보를 단지 데이터를 같은 위치에 두는 것으로 통합하여 전체에 대한 요약정보를 가지고 있다.

성능 데이터 모델링 개요

- 성능 데이터 모델링 데이터베이스 성능향상을 목적으로 설계단계의 데이터 모델링 때부터

정규화, 반정규화, 테이블통합, 테이블분할, 조인구조, PK, FK

등 여러 가지 성능과 관련된 사항이 데이터 모델링에 반영될 수 있도록 하는 것으로 정의할 수 있다

 

  • 성능 데이터 모델링 고려사항
  1. 정규화를 정확하게 수행한다.
  1. DB 용량산정을 수행한다.
  1. DB에서 발생되는 트랜잭션의 유형을 파악한다.
  1. 용량과 트랜잭션의 유형에 따라 반정규화를 수행한다.
  1. 이력모델의 조정, PK/FK 조정, 슈퍼타입/서브타입 조정 등을 수행한다.

 

정규화, 반정규화와 성능

정규화만을 강조하다 보면 성능의 이슈가 발생될 수 있고 반정규화를 과도하게 적용하다 보면 데이터 무결성이 깨질 수 있는 위험이 증가하게 된다. → 판단의 주의가 요구된다

 

- 정규화(Normalization)

정규화 수행 모델은 데이터의 입력/수정/삭제할 때 일반적으로 반정규화된 테이블에 비해 처리 성능이 향상된다. 단 데이터를 조회할 때에는 처리 조건에 따라 조회 성능이 향상될 수도 있고 저하될 수도 있다. →

정규화를 수행하면 무조건 조회성능이 저하된다는 것은 아니다.

 

  • 함수적 종속성(Fuctional dependency)

데이터들이 어떤 기준값에 의해 종속되는 현상을 지칭하는 것이다. 기준값을 결정자(Determinant)라고 하고 종속되는 값을 종속자(Dependent)라고 한다.

어떤 사람의 주민등록번호가 신고되면 그 사람의 이름, 출생지, 호주가 생성되어 단지 하나의 값만을 가지게 된다. → "주민등록번호가 이름, 출생지, 호주를 함수적으로 결정한다."

💡
주민등록번호 → (이름, 출생지, 호주)
 

 

cf) 논리적 데이터 모델링

2021.04.19 - [Certification_Note/SQL-D] - 제1장. 데이터 모델링의 이해(추가자료) - 논리적 모델링

 

제1장. 데이터 모델링의 이해(추가자료) - 논리적 모델링

dasp를 공부하면서 논리적 데이터모델링 정리부분이 있어 부록으로 올립니다. 데이터 모델링 이해 논리 데이터 모델링의 핵심은 업무에서 필요로 하는 데이터에 존재하는 사실을 인식, 기록하는

wierd-ds.tistory.com

 

- 반정규화(Denormalization)

성능을 향상시키기 위해 정규화된 데이터 모델에서 중복, 통합, 분리 등을 수행하는 모든 과정

  • 반정규화를 고려하는 상황
  1. 자주 사용되는 테이블에 접근하는 프로세스의 수가 많고 항상 일정한 범위만을 조회하는 경우에 검토한다.
  1. 테이블에 대량의 데이터가 있고 데이터 범위를 자주 처리하는 경우에 처리범위를 일정하게 줄이지 않으면 성능을 보장할 수 없을 경우에 반정규화를 검토한다.
  1. 통계성 프로세스에 의해 통계 정보를 필요로 할 때 별도의 통계테이블을 생성한다.
  1. 테이블에 지나치게 많은 조인이 걸려 데이터를 조회하는 작업이 기술적으로 어려울 경우 반정규화를 고려한다.

 


  • 반정규화의 대상에 대해 다른 방법으로 처리할 수 있는지 검토
  1. 뷰를 사용하여 조회의 성능을 향상시킬 수 있는가
  1. 클러스터링을 적용 or 인덱스를 조정함으로써 성능을 향상시킬 수 있는가
  1. 파티셔닝을 적용하여 성능을 향상시킬 수 있는가
  1. 응용 애플리케이션의 로직을 변경하여 성능을 향상시킬 수 있는가

 

cf)물리적 데이터 모델링

 

 

dasp에서 공부하던 요약자료를 부록형식으로 올립니다.

4.1 - 물리 데이터 모델링의 이해

물리적 모델 정의

물리 데이터

모델이란 논리적 모델을 특정 데이터베이스로 설계함으로써 생성된 데이터를 저장할 수 있는 물리적인 스키마를 말한다

.

데이터 모델의 엔터티와 서브타입은 논리적인 집합이며, 만약 관계형 데이터베이스로 설계한다면 이 단계에 와서 물리적인 테이블로 확정한다.

 

물리 데이터 모델링은 논리 데이터 모델을 사용하고자 하는 각 DBMS의 특성을 고려하여 데이터베이스 저장 구조로 변환하는 것이다.

 

물리 데이터 모델 의의

물리적 데이터 모델링은 관계 데이터 모델링(RDM)이라고도 한다.

사전에 작성된 논리적 데이터 모델을 각각의 관계형 데이터베이스 관리시스템의 특성, 기능, 성능 등을 고려하여 데이터베이스의 물리적인 구조를 작성해나가는 과정이다.

→ 논리적 데이터베이스 모델에서 도출된 내용 변환을 포함하여

데이터의 저장 공간, 데이터의 분산, 데이터 저장 방법 등을 함께 고려

하는 단계이다.

 

논리 데이터 모델-물리 데이터 모델

분산 DB구축, 물리 데이터 모델 비교, 물리적 환경의 변화, 물리적 모델의 형상관리

가. 분산 데이터베이스 구축 시

분산 데이터베이스를 구축하고자 할 경우 노드별로 자신이 원하는 형태의 물리적 모델을 생성하고자 할 때 적용하는 경우이다.


나. 물리 데이터 모델 비교

각자 나름대로의 특징을 가지고 있는 여러 개의 물리적 모데을 생성하여 종합적인 비교 검토를 하기 위하여 적용하는 경우이다.


다. 물리적 환경의 변화

논리적인 모델에는 변화가 발생하지 않지만 물리적인 환경에서는 변경이 발생했을 경우 기존의 물리적 모델을 새로운 목표 물리적 모델로 개선하고자 할 때 적용하는 경우이다.


라. 물리적 모델의 형상 관리

물리적 모델이 세월의 흐름에 따라 조금씩 변해갈 경우 그 이력을 관리할 목적으로 여러 개의 버전을 보유하고자 할 때 사용하는 경우이다.

 

4.2 - 물리 요소 조사 및 분석

시스템 구축 관련 명명 규칙

사내의 시스템 구축과 관련된 명명 규칙을 파악하여 물리 데이터 모델의 각 요소의 내용에 이를 적용

 

하드웨어 자원

가. CPU

중앙처리 장치의 성능과 집중적인 부하가 발생하는 시간 등을 파악한다.

나. MEMORY

전체 메모리의 규모 및 시스템이 사용하는 메모리 영역을 포함하여 사용 가능한 메모리 영역을 파악한다

다. DISK

전체 디스크의 크기, 분할된 형태, 현재 디스크 활용률 등을 파악하고 사용 가능한 공간을 확인한다.

라. I/O Controller

현재 입/출력 컨트롤러의 성능 및 적절하게 운용되고 있는가를 파악한다.

마. Network

현재 처리 가능한 속도, 집중적인 부하가 발생하는 시간대, 동시접속 최대 가용 사이트 수

 

운영체제 및 DBMS 비전 파악

운영체제의 관련 요소를 파악하고 적절하게 관리되고 있는가 파악한다. (인스턴스 관리기법)

 

DBMS 파라미터 정보 파악

환경적용 단계에서 가장 중요하게 고려하는 단계이다.

저장공간 관리 기법과 메모리 관리기법 등에 관련된 파라미터에 관해서 주의를 기울인다. 쿼리에 사용하는 옵티마이저의 운영 방법 등도 중요

 

DB 운영과 관련된 관리요소 파악

사용자 관리 기법 및 정책, 백업/복구 기법 및 정책, 보안 관리 정책

 

4.3 - 논리물리변환

 

데이터 표준 적용

논리 데이터 모델링 과정에서 정의된 엔터티, 속성, 관계들은 여러가지 기준으로 물리 데이터 모델로 변환하다. 이과정에서 필수적으로 엔터티명에 해당하는 테이블명을 생성하고, 속성 또는 관계에 해당하는 칼럼명을 생성한다. 이러한 이름을 변환하는 과정에서 전사적으로 미리 생성된 데이터 표준을 따르게 된다.

 

- 데이터표준 적용대상

DB:

테이블의 집합으로 통합 모델링 단계의 주제 영역이나 애플리케이션 모델링 단계의 업무 영역에 대응되는 객체이다.

 

스토리지그룹:

물리적인 디스크를 묶어서 하나의 그룹으로 정의해 놓은 것이다. 테이블 스페이스, 인덱스 스페이스 생성 시 스토리지 그룹명을 지정하여 물리적 영역에 할당

 

테이블스페이스:

테이블이 생성되는 물리적인 영역이며, 테이블 스페이스에 하나 또는 그 이상의 테이블을 저장할 수 있다.

 

테이블:

논리 설계 단계의 엔터티에 대응하는 객체이다.

 

칼럼:

논리 설계 단계의 속성에 대응하는 객체이다.

 

인덱스:

테이블에서 특정 조건의 데이터를 효율적으로 검색하기 위한 색인 데이터이다. 기본키,외래키

 

뷰:

테이블에 대한 재정의로서 물리적인 테이블의 특정 칼럼, 특정 로우를 뷰로 정의하여 특정 사용자만 접근이 가능하도록 할 수 있다.

 

- 데이터표준 적용방법

1)명명 규칙에 대한 표준화

 

2)표준용어집에 의한 표준화

4.4 - 반정규화(Denormalization)

반정규화

논리 데이터 모델링의 마지막에 진행되었던 정규화 작업이 완료되면 데이터 모델은 데이터의 중복을 최소화하고 데이터의 일관성 정확성, 안정성을 보장하는 데이터 구조가 완성된다.

정규화된 데이터 모델은 시스템의 성능 향상, 개발 과정의 편의성, 운영의 단순화를 위해 정규화의 원칙들에 위배되는 행위를 의도적으로 수행하게 된다→

이러한 과정을 반정규화 과정이라고 한다.

- 반정규화된 데이터 구조는 성능과 관리효율을 증대시킬 수 있지만, 데이터의 일관성 및 정합성을 해칠 위험을 내포하고 있고, 또한 이를 유지하는데도 그만큼 비용이 발생하여 지나치면 오히려 성능에도 악영향을 미칠 수 있기 때문에,

데이터 모델의 각 구성 요소인 엔터티, 속성, 관계에 대해 데이터의 일과성과 무결성을 우선으로 할 지 데이터베이스의 성능과 단순화에 우선순위를 둘 것인지를 적절하게 조정하는 것이 중요하고 다양한 경험이 필수이다.

 

테이블 분할

하나의 테이블을 수직 혹은 수평 분할하는 것을 테이블 분할 또는 파티셔닝이라고 한다.

DB 디자인 단계에서의 데이터를 저장하는 방식의 파티셔닝과는 다른 것이다.

 

  • 수평분할
레코드(Tuple)을 기준으로 테이블을 분할하는 것을 말한다.

- 사용의의

하나의 테이블에 데이터가 많이 있고, 레코드 중에서 특정한 범위만을 주로 엑세스하는 경우에 사용

분할된 각 테이블은 서로 다른 디스크에 위치시켜 물리적인 디스크의 효용성을 극대화할 수 있다.

대표적인 방법으로는 범위(Range), 해쉬(Hash), 목록(List), 복합(Composite) 분할이 있다.

 

  • 수직분할

속성(Attribute)를 기준으로 테이블을 분할하는 것을 말한다.

갱신 위주 수직분할, 자주 조회 수직분할, 특정칼럼 크기 큰 경우 수직분할, 보안적용 수직분할

 

- 갱신 위주의 칼럼 수직 분할

데이터를 갱신하는 작업이 일어날 때 업데이트하려는 레코드, 즉 레코드에 잠금을 수행하기 때문에 분할작업을 실시한다.

잠금은 데이터의 무결성을 지키기 위한 수단으로 하나의 프로세스가 특정 데이터 값을 변경하려고 할때 변경 작업이 끝날 때까지 다른 프로세스가 이 데이터 값을 변경하지 못하도록 금지하는 것이다.

갱신 위주의 칼럼 수직 분할을 통해 데이터 사용의 효율성을 증가시킬 수 있다.

 

 

- 자주 조회되는 칼럼 분할

칼럼 수가 아주 많은 테이블에서 주로 사용되는 칼럼들이 극히 일부라고 가정한다면 일부 칼럼들로 이루어진 테이블을 생성하여 실제 물리적인 I/O양을 줄여서 데이터 엑서스 성능을 향상시킬 수 있다.

 

DBMS는 엑세스하고자 하는 모든 데이터를 초기에 물리적인 데이터 파일에서 메모리로 읽어들이게 된다. 또한

한번 읽어들인 데이터는 읽고 바로 지워지는 것이 아니라 일정기간 메모리에 저장되게 된다.

이러한 DBMS의 메커니즘상에서 보듯이 읽어 들이는 데이터의 양이 적다면 초기 데이터 메모리로 적재하는 비용이 절약되고, 또한 메모리상에 상대적으로 오래 머물 수 있기 떄문에 데이터의 재사용성을 높여주는 효과를 얻을 수 있다.

 

- 특정 칼럼의 크기가 아주 큰 경우 분할

특정 칼럼의 크기가 아주 큰 경우 분할이 일어나는 대개의 경우는 특정 칼럼의 크기가 크다는 것보다는 특정한 데이터 형식에 기인하는 문제가 대부분이다. (이미지 데이터, 대용량 데이터)

이러한 텍스트 및 이미지와 같은 LOB(Large objects)는 백업, 복원과 같은 관리나 프로그래밍과 같은 개발부분에서 성능이 저하될 가능성이 존재한다.

 

 

- 특정 칼럼에 보안을 적용해야 하는 경우의 분할

많은 데이터베이스 시스템이 테이블이나 뷰와 같은 객체들에 대해서는 SELECT, UPDATE, DELETE등과 같은 권한을 제어할 수 있는 기능을 제공하고 있다. 하지만 테이블 내의 칼럼에 대해서는 이러한 권한(Permission) 제어 기능을 제공하고 있지 않다.

이런 경우 해당 칼럼에 대해 권한을 제어하기 위해서는 보안을 적용하고자 하는 칼럼을 분리해 이를 별도의 테이블로 만들어 그 테이블에 대한 제어 권한을 얻을 수 있다.

 

중복 테이블 생성

많은 양의 정보를 자주 Group by, sum 등과 같은 집계 함수를 이용해서 실시간으로 통계 정보들을 계산해낼 수 있다. 하지만 대부분 이러한 계산의 유형은 매우 많은 양의 데이터가 대상이 되고, 하나의 테이블이 아닌 여러 개의 테이블에서 필요한 데이터를 추출하는 경우가 대부분이다.

이를위해 특정

통계 테이블을 두거나 중복 테이블을 추가

할 수 있다.

 

- 중복테이블 생산의 판단근거

정규화에 충실하면 종속성, 활용성은 향상되지만 수행속도 증가가 발생하는 경우

많은 범위를 자주 처리해야 하는 경우

특정 범위의 데이터만 자주 처리되는 경우

처리 범위를 줄이지 않고는 수행 속도를 개선할 수 없는 경우

요약 자료만 주로 요구되는 경우

추가된 테이블의 처리를 위한 오버헤드를 고려

 

1)집계(통계)테이블 추가

단일 테이블의 GROUP BY, 여러 테이블의 조인 GROUP BY

- 로우 수와 활용도를 분석하고 시뮬레이션을 통해 그 효용성에 대한 면밀한 검토 선행

- 집계 테이블에 단일 테이블 클러스트링을 한다면 집계 레벨을 좀 더 낮춰 활용도를 높일 수 있는지 고려해야 한다.

- 클러스터링, 결합 인덱스, 고단위 SQL을 활용하면 굳이 집계 테이블 없이도 양호한 수행속도 낼 수 있음

- 추가된 집계 테이블을 기존 응용 프로그램이 이용할 수 있는지 찾아 보정시키는 노력이 필요하다.

 

2)진행테이블 추가

추가사항

- 여러 테이블의 조인이 빈번히 발생하며 처리 범위도 넓은 경우

- M:M 관계가 포함된 처리의 과정을 추적, 관리하는 경우

- 검색 조건이 여러 테이블에 걸쳐 다양하게 사용되며 복잡하고 처리량이 많은 경우

 

유의사항

- 데이터량이 적절하고 활용도가 좋아지도록 기본키를 설정

- 필요에 따라 추출칼럼을 추가하여 집계 테이블의 역할도 하는 다목적 테이블을 구상

- 다중 테이블 클러스터링이나 조인 SQL을 사용하면 굳이 진행 테이블 안만들어도 쌉가능

 

중복 칼럼 생성

정규화를 통해 중복 칼럼을 최대한 제거하는 작업을 수행한다. 이렇게 중복 데이터를 제거하는 이유는 여러가지가 존재하지만 가장 큰 이유 중 하나는

데이터의 정합성을 유지

하기 위함이다.

 

- 생성상황

빈번하게 조인을 일으키는 칼럼에 대해 고려해볼 수 있다.

속도가 중요한 칼럼에 대해서 중복 칼럼을 고려할 수 있다.

엑세스의 조건으로 자주 사용되는 칼럼에 대해 고려해볼 수 있다.

상세한 조건 부여에도 불구하고 엑세스 범위를 줄이지 못하는 경우에 자주 사용되는 조건들을 하나의 테이블로 모아 조건의 변별성을 극대화할 수 있따.

복사된 칼럼의 도메인은 원본 칼럼과 동일하게 해야 한다. ← 데이터 일관성을 위한 필수사항

접근 경로의 단축을 위해 부모 테이블의 칼럼을 자식 테이블에 중복시킬 수 있다.

상위 레벨의 테이블에 집계된 칼럼추가 가능, 하위레벨 테이블에 중복칼럼 복사가능

판단할 수 없는 값이 검색의 조건으로 사용되는 경우에는 연산의 결과를 중복칼럼으로 생성가능

로우로 관리하던 데이터를 칼럼으로 관리하는 경우이다.

 

 

+ Recent posts