오늘은 두 변수 간 관계를 검정하는 통계 분석 방법인 상관분석에 대해서 알아보겠습니다. 두 변수간 의미 있는 관계를 알아내고 추후 회귀분석으로 인과관계를 확인하도록 하겠습니다.
상관분석
연속형 두 변수간 직선적(선형) 관계 정도를 검정하는 통계 분석 방법이다. 가장 쉽고 빠르게 선형성을 확인할 수 있는 방법으로 산점도를 사용한다. 산점도를 활용한 시각화로 두 변수간 선형 관계가 존재하는지, 이상치가 존재하지 않는지, 그룹으로 나누어져있지 않은지 확인할 수 있다. 객관적인 지표로는 상관계수를 통해 확인한다.
상관계수(Correlation Coefficient)
산점도를 통한 연관성 파악에 대하여 계량적인 객관성이 필요하다. 이때 두 변수 사이의 상관관계를 나타내는 수치를 상관계수라 한다. 상관계수는 -1과 1사이의 범위를 가지며, 절댓값이 1에 가까울수록 강한 상관관계를 의미한다.
1) 피어슨 상관계수(Pearson correlation)
두 변수간 선형관계의 방향과 강도가 어느 정도인지 측정하는데 피어슨 상관계수가 사용된다. 두 변수의 정규성을 가정하여 정규성을 갖추지 못한 경우에는 한계를 가진다. 공식에서 분모는 x표준편차, y표준편차이고, 분자는 공분산이다. 공분산 값에 따라서 기울기가 달라진다. 예시로는 대입시험 점수와 대학 졸업 학점 간의 상관관계가 있다.
2) 스피어만 상관계수(Spearman correlation)
스피어만 상관계수는 서열 척도를 가진 두 변수의 상관관계를 파악할 수 있는 비모수적 방법이다. 피어슨 상관계수와 공식은 동일하지만 들어가는 변수가 서열, 등수에 대한 변수이다. 예시로는 고입시험 등수와 대입시험 등수 간의 관계가 있다.
3) 켄달 상관계수(Kendall correlation)
켄달 상관계수는 전문가나 심사위원들의 평가 간 상관계수를 파악할 때 활용된다. 예시로는 두 심사위원이 부여한 등수 간의 관계가 있다.
상관계수에 대한 이해
상관관계는 인과관계를 의미하는 것은 아니다. A와 B간 높은 상관관계가 산출되었다면 A가 B에 영향을 주거나 그 반대로 영향을 주거나 우연인 경우를 들 수 있다. 상관계수의 절댓값이 1에 가까운 경우에도 실제 두 변수간 상관관계가 높지 않을 수 있고, 0에 가까운 경우에도 상관관계가 없는 것이 아닐 수 있다. 상관계수는 원인과 결과로 해석하면 안 된다. 예를 들어 인플레이션(원인)이 버스 교통비와 자장면 가격에 영향을 주어 두 가격의 상관계수가 1에 가깝다(결과)고 해서 두 가격 이 오른 것이 서로의 원인이 아니다.
결론
오늘은 두 변수 간의 관계를 검정하기 위한 분석 방법(상관분석과 상관계수)을 알아보았습니다. 상관계수에 대한 정확한 이해를 통해 잘못된 해석이 되지 않도록 해야합니다.
'소프트웨어 엔지니어' 카테고리의 다른 글
[정리] Software Architect - Architectural Design (1) | 2023.03.27 |
---|---|
[DS-통계] 분석 - 선형회귀 (2) | 2022.11.18 |
[DS-통계] 추정 - 중심극한정리, 신뢰구간, 표준오차 (1) | 2022.11.16 |
[DS-통계] 확률변수와 확률분포(이산, 연속) (2) | 2022.11.15 |
[DS-통계] 분석 - 위치, 변이 통계량, 확률, 베이즈 정리 (1) | 2022.11.14 |