소프트웨어 엔지니어

[DS-통계] 분석 - 위치, 변이 통계량, 확률, 베이즈 정리

잇남 2022. 11. 14. 17:56

지난 포스팅에서 통계량은 표본을 분석하여 얻어지는 결과 수치라고 정의했습니다. 이번 시간에는 통계량의 종류에 대해 알아보고 추가적으로 확률과 베이즈 정리에 대해서 정리하겠습니다. 

 

통계량의 종류 (위치, 변이, 모양)

1) 위치 통계량 (중심 경향성) : 평균, 중앙값, 최빈값

일반적인 평균값(Mean)을 산술평균이라고 하며 주어진 수의 합을 수의 개수로 나눈 값이다. 그 외에 기하평균, 조화 평균, 가중평균등의 통계량이 있다. 평균이 수치형 데이터에 대한 대푯값이라면 기대값(E)는 모르는 데이터에 대한 평균값이다. 추가적으로 데이터를 순서대로 나열할 때 정 가운데 있는 값은 중앙값(Median)이며 자료에서 가장 자주 나타나는 관측치는 최빈값(Mode)이라고 한다. 

 

출처: ktword

 

2) 변이 통계량 (산포도) : 범위(Range), 분산(Variance), 표준편차(Standard Deviation)

자료의 분포 특성을 분석할때 중심 경향성과 함께 산포도를 고려한다. 범위는 최대치와 최소치의 차이이며, 중간 범위는 최대치와 최소치의 합을 2로 나눈 값이다. 평균절대편차(MAD)는 모든 값에 대해 평균값의 차이(편차)의 절대값을 더한 후 자료 수로 나눈 평균값이다. 분산은 모든 편차를 제곱하고 이들을 합한 후 총수로 나눈 값이다. 표본에서 n-1을 사용하여 모수에 대한 불편 추정량이 되도록 한다.  표준편차는 분산의 제곱근이다. 표준편차를 구하면 자료의 원단위로 환원되어 쉽게 비교가 가능하다.  서로 다른 데이터 간의 편차를 비교하기 위해서는 상대표준편차, 즉 변동 계수를 구한다. 표준편차를 평균으로 나눈 값이다.  

수학 공식 이미지
출처: 슬라이드플레이어

 

3) 모양 통계량 (분포의 모양) : boxplot, 왜도(skewness), 첨도(kurtosis)

자료 분포의 특성을 그래프로 boxplot을 활용하여 표현이 가능하다. 왜도는 자료의 대칭성을 알아보는 측도이며, 첨도는 정규분포 대비 봉오리의 높이를 알아보는 측도이다. 통계량이 양수이면 오른 꼬리이며 정규분포보다 뾰족하고, 음수라면 왼 꼬리에 정규분포보다 평평하다.

 

 

확률

1) 확률, 조건부 확률

확률은 어떤일이 일어날 수 있는 확실성의 정도이며, 확률 실험은 E, 확률 실험으로 출현 가능한 모든 결과들의 모임을 표본 공간(Sample space:S)이라고 한다. 표본 공간의 각 원소들의 부분집합을 사건이라고 표현한다. 사건의 연산에는 합사건, 곱사건, 여사건, 배반사건, 독립사건이 있다. 조건부 확률은 A가 발생한 상황하에서 B가 발생활 확률이다. 

조건부확률 공식 이미지

2) 베이즈 정리(사후확률)

베이즈 정리는 전환율 공식으로 표현이 가능하며, 사후 확률을 구하는데 활용된다. 예를 들어 A와 B 주머니에서 파란색 공을 하나 뽑는다.(이벤트 종료) 이후 파란색 공이 A 주머니에서 나왔는지, B 주머니에서 나왔는지를 계산하는 방식이다. 이를 알기 위해서는 사전 확률과 조건부 확률을 알아야 한다. P(B|A1)는 데이터를 보면 구할 수 있는 확률인 조건부 확률, P(A1|B)는 이미 발생한 B가 A1인 확률로 사후 확률을 표현한다. 사전 확률과 조건부 확률을 알고 베이즈 정리를 잘 이해하고 있다면 사실상 덧셈, 뺄셈, 곱셈 문제이다. 

베이즈정리 이미지

 

정리

통계량이 무엇인지 정확하게 이해하고 통계량을 정리하는 방법에 대해서 이해한다. 데이터의 불규칙성, 변동성, 특수성을 이해하기 위해 분산과 표준편차를 이용한다. 데이터 분포의 형태를 표현하는 방법을 이해한다. 확률에서는 조건부 확률과 베이즈 정리를 정확하게 이해하고 수식으로 표현하는 과정을 추가적으로 연습한다. 

반응형