상관 분석

상관 분석(相關分析, 영어: correlation analysis, dependence analysis)은 확률론과 통계학에서 두 변수 간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법이다. 두 변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계(correlation)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수로 ρ를 사용하며 표본 상관 계수로 r 을 사용한다.

상관관계의 정도를 파악하는 상관 계수(相關係數, correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 두 변수간에 원인과 결과의 인과관계가 있는지에 대한 것은 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼 수 있다.

기본 가정

선형성: 두 변인 X와 Y의 관계가 직선적인지를 알아보는 것으로 이 가정은 분포를 나타내는 산점도를 통하여 확인할 수 있다.
동변량성: X의 값에 관계없이 Y의 흩어진 정도가 같은 것을 의미한다. 이분산성이 반대어이다.
두 변인의 정규분포성: 두 변인의 측정치 분포가 모집단에서 모두 정규분포를 이루는 것이다.
무선독립표본: 모집단에서 표본을 뽑을 때 표본대상이 확률적으로 선정된다는 것이다.^[1]

분석 방법

단순히 두 개의 변수가 어느 정도 강한 관계에 있는가를 측정하는 단순상관분석(simple correlation analysis), 2개 이상의 변수간 관계 강도를 측정하는 다중상관분석(multiple correlation analysis)이 있다. 다중상관분석에서 다른 변수와의 관계를 고정하고 두 변수의 관계 강도를 나타내는 것을 편상관분석(partial correlation analysis)이라고 한다.

이때 상관관계가 0<ρ≤+1 이면 양의 상관, -1≤ρ<0 이면 음의 상관, ρ=0이면 무상관이라고 한다. 하지만 0인 경우 상관이 없다는 것이 아니라 선형의 상관관계가 아니라는 것이다.

피어슨 상관 계수

피어슨 상관 계수(Pearson correlation coefficient 또는 Pearson's r)는 변수들간의 관련성을 구하는 이변량 상관분석(bivariate analysis 또는 bivariate correlation analysis)에서 보편적으로 이용된다. 개념은 다음과 같다.

r = X와 Y가 함께 변하는 정도 / X와 Y가 각각 변하는 정도

결과의 해석

r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 –1 을 가진다. 결정계수(coefficient of determination)는 $r^{2}$ 로 계산하며 이것은 X 로부터 Y를 예측할 수 있는 정도를 의미한다.

일반적으로

r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,

r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,

r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,

r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,

r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,

r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,

r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계

로 해석한다.

스피어만 상관 계수

스피어만 상관 계수(Spearman correlation coefficient)는 데이터가 서열척도인 경우 즉 자료의 값 대신 순위를 이용하는 경우의 상관 계수로서, 데이터를 작은 것부터 차례로 순위를 매겨 서열 순서로 바꾼 뒤 순위를 이용해 상관 계수를 구한다. 두 변수 간의 연관 관계가 있는지 없는지를 밝혀주며 자료에 이상점이 있거나 표본크기가 작을 때 유용하다. 스피어만 상관 계수는 -1과 1 사이의 값을 가지는데 두 변수 안의 순위가 완전히 일치하면 +1이고, 두 변수의 순위가 완전히 반대이면 -1이 된다. 예를 들어 수학 잘하는 학생이 영어를 잘하는 것과 상관있는지 없는지를 알아보는데 쓰일 수 있다.

크론바흐 알파 계수 신뢰도

크론바흐 알파 계수(Cronbach's alpha)의 신뢰도 계수 α는 검사의 내적 일관성을 나타내는 값으로서 한 검사 내에서의 변수들 간의 평균상관관계에 근거해 검사문항들이 동질적인 요소로 구성되어 있는지를 분석하는 것이다. 동일한 개념이라면 서로 다른 독립된 측정 방법으로 측정했을 때 결과가 비슷하게 나타날 것이라는 가정을 바탕으로 한다. 예를 들어 설문지 조사의 경우, 같은 내용의 질문을 다른 형태로 반복하여 질문한 다음 같게 대답했는지를 검사하여 신뢰도를 알아 볼 수 있다. 일반적으로는 요인분석을 하여 요인들을 추출하고 이들 요인들이 동질 변수들로 구성되어 있는지를 확인할 때 이용한다. 사전조사나 같은 속성의 질문을 반복하여 신뢰도를 높일 수 있다.

같이 보기

참고 문헌

↑ 김석우, 《기초통계학》, 학지사, 2007, p.96-97

[1] 김석우, 《기초통계학》, 학지사, 2007, p.96-97

[1]