본문 바로가기
자격증따기/사회 조사 분석사 2급

[사회통계] 분석의 종류(카이제곱분석/분산분석/판별분석/회귀분석) 요약 노트 공유!!

by FULL OF JOY 2019. 2. 23.
반응형

[사회통계]분석의 종류




 독립변수-종속변수

 

                                                                                 



 

1. 빈도분석(Frequency): 카이제곱 검정 사용

빈도분석은 원천 데이터의 내용들이 도수분포표상에서 어떠한 분포적 특성을 가지고 있는지를 파악하는 데 이용되고 있다. 이들 분포들의 특성인 통계량들은 첫째, 빈도, 상대적 빈도, 누적빈도와 같은 도수분포표로 구성되어 있다. 둘째, 최빈값, 중앙값, 산술평균과 같은 중심화 경향을 나타내는 통계량들로 구성되어 있다. 셋째, 범위, 평균편차, 분산, 표준편차 등으로 이들은 분산도를 나타내고 있다. 또한 이같은 특성치들을 하나의 바차트나 히스토그램으로 그래픽 처리하여 나타내는데 있어 빈도분석이 널리 이용되고 있다.

예시) 41일 부터 20일 사이에 벚꽃을 보러가는 사람의 수는 서울, 경기, 호남, 제주 지역에 따라 차이가 있을 것이다. 라는 가설을 검증하려면 빈도분석 사용

 

2. 교차분석(Crosstabs): 카이제곱 검정 사용

교차분석은 명목 및 서열척도의 범주형 변수들을 분석하기 위한 것으로써 한 변수의 범주를 다른 변수의 범주에 따라 빈도를 교차분류하는 교차표(Cross Tabulation: 분할표)를 먼저 작성하고 두 변수간의 독립성과 관련성을 분석한다.

예시) 성별과 전공선택 문항 간의 관계

 

3. 분산분석(Analysis of Variance: ANOVA=F 검사=변량분석)

분산분석은 집단이 3개 이상일 때, 그들의 평균치에 대한 차이를 검정하는 통계기법이다. 이 분산분석을 이용하여 표본들이 동일한 평균을 가진 모집단에서 추출된 것인지의 여부를 추론할 수 있다. 예를 들면, 분산분석의 이용은 통계학을 수강한 학생들의 점수[종속변수: 비율척도 또는 등간척도]에 대해 학년별[독립변수: 명목척도]평균의 차이가 있는지를 살펴볼 수 있다. 그리고 이러한 차이가 통계적으로 유의한 것인지를 파악할 필요가 있는데 이같은 상황에서 두 집단 이상의 한 변수에 대한 평균의 차이를 검정하고자 할 때 이용한다.

예시) 커피, 비타민, 자양강장제(독립=범주형)를 먹은 사람들 가운데 학업성적(종속=연속형)에 차이가 있을 것이다

 

4. T-test 분석(=평균분석)

집단이 두 개만 존재할 때 두집단의 평균을 비교하여 가설을 검증하는 방법. 크게 Z-검정과 T-검정으로 구분되는 데 Z-검정은 모집단의 분산을 알고 있는 경우에 사용된다. 그러나 두 모집단의 분산을 알고 있는 경우는 드물기 때문에 보통 T-검정을 사용하게 된다. T-검정은 두 집단간의 평균의 차이가 통계적으로 유의한지를 파악할 때 이용하는 통계기법이다.

예시) 커피를 마신 그룹과 커피를 마시지 않은 그룹사이에는 업무 효율성(점수화)에 차이가 있을 것이다.

 

5. 판별분석(Discriminants Analysis)

판별분석은 사회현상의 여러 특성들을 토대로하여 주어진 상황에서 응답자들이 어떻게 행동할 것인지를 예측하는 하나의 통계기법이다. 예를 들면 기업이 도산을 할 것인가? 그렇지 않을 것인가를 예측하는 일은 대단히 어렵다. 기업의 도산 가능성은 그 기업의 자산상태, 부채비율, 수익성, 유동성 등 여러 가지 변수들에 의하여 결정된다고 생각된다. 이러한 변수들을 이용하여 기업의 도산여부를 예측하려고 한다면 판별분석이 적합하다. 여기서 도산 여부를 나타내는 변수가 종속변수이다. 이 변수는 성질상 명목척도이다. 그리고 자산상태, 부채비율, 수익성, 유동성 등은 독립변수(연속형)에 해당되고 이를 판별변수라부른다.

 

6. 회귀분석(Regression Analysis)

다변량모집단에서는 모집단을 구성하는 변수들 간에 인과관계를 분석한다. 회귀분석은 변수들 중 하나를 종수변수로 나머지를 독립변수로 하여 이들 변수들이 서로 상관관계를 가질 때 독립변수가 변화함에 따라 종속변수가 어떻게 변화 하는가를 규명하는 통계기법이다. 회귀분석은 독립변수의 개수에 따라 단순회귀분석과 다중 회귀분석으로 구분할 수 있다. 회귀분석의 핵심은 r2을 구하는 것이다. 보통 0.65이면 유의미하다고 판단한다.

예시) 친환경적 행동을 하는데 어떤 요소가 가장 큰 영향을 끼칠것인가? 연봉 수준, 교육 수준, 도덕성, 직업, 연령

 

7. 요인분석(Factor Analysis)

요인분석은 일련의 관측된 변수에 근거하여 직접 관측할 수 없는 요인을 확인하기 위한 것이다. 요인 수 축소로 설명력 증대.

예시) 지역사회를 기술하기 위해서는 지역의 산업화의 정도, 경제활동, 이동성, 가계수입, 주택보유율, 출생율 등 수많은 변수를 사용하여야 한다. 요인분석은 수많은 변수들을 적은 수의 몇 가지 요인으로 묶어줌으로써 그 내용을 단순화하는 것이 그 목적이다.

 

8. 군집분석(Cluster Analysis)

어느 회사에서 시장을 세분화하려고 한다면 시장세분화의 여러 기준을 수립하여야 한다. 그리고 이를 기준에 따라 변수들을 결합하게 된다. 군집분산은 분류할 집단에 특정한 대상물을 배정하여 동일 집단의 대상물이 유사성을 갖게 함으로써 집단간의 차이를 명확하게 하는 군집분석이 이용된다. 군집분석은 모든 케이스에 대한 집단이 사전에 알려지지 않으며 집단의 수가 몇 개로 나누어질지도 알 수 없다. 군집분석의 목적은 동질적인 집단이나 군집을 분류하는 데 있다.

예시) 생물에 대한 흩어진 데이터들을 임의의 유사성으로 묶어보아라 à 포유류, 설치류, 파충류

 

9. 기술통계분석(Descriptive)

가장 기본적인 통계 방식. 기술통계분석은 요약 통계량을 계산하고 표준화된 변수값들을 데이터 파일에 저장한다. 기술통계분석의 통계처리 결과는 빈도분석의 통계량과 거의 유사하다. 그러나 빈도분석은 이산적 변수값(최빈값, 중앙값, 평균)을 다루는데 비해 기술통계분석은 연속적인 변수값(사람수, 퍼센티지)을 다룬다는 점에서 빈도 분석과 다르다.

예시) 서울, 경기, 호남, 영남 지방에서의 문재인 지지율

 

10. 상관관계분석(Correlation Analysis)

상관관계분석은 연구하고자 하는 변수들간의 관련성을 분석하기 위해 사용한다. , 한 변수가 다른 변수와의 관련성이 있는 지 여부와 관련성이 있다면 어느 정도의 관련성이 있는지를 알고자 할 때 이용하는 분석기법이다. 그리고 상관관계분석은 각각의 변수가 주로 연속형 데이터인 경우에 사용한다. (독립, 종속 변수가 범주형, 연속형에 상관없이 모두 측정할 수 있는데, 이에 따라 검증하는 기법이 다름.)핵심은 상관계수 R 을 구하는 것인데 상관계수는 -11사이의 값을 가지며 1에 가까울 수록 상관도가 높다고 평가한다. 0에 가까울수록 관계가 적다. 널리 사용되는 상관계수는 Pearson상관계수, Spearman상관계수, Kendall 상관계수가 있다.

예시)근무환경과 직무 만족도의 상관관계

 

 


출처:

http://www.researchrna.com/view.asp?seq=77&cpage=2&ForumId=4&No=8&mPW=1&fSearchType=-1&fSearchStr=-1

http://contents.kocw.net/KOCW/document/2014/HankukForeign/JeongGapYeon1/13.pdf

https://brunch.co.kr/@zhoyp/262

반응형

댓글