본문 바로가기
CODING/AI & ML & DL

[Python/데이터분석] 상관계수 해석

by 밍톨맹톨 2021. 9. 5.
728x90
728x90

상관계수란?

어떤 변수가 증가할 때 다른 변수가 함께 증가하는지, 감소하는지 파악하는 것을 말함.

 

데이터에서 상관관계를 조사하는 것은 중요한 역할을 하기도 하지만

대부분의 데이터에서 두 변수를 조사했을 때 두 변수가 전혀 관계가 없는 경우보다 작게라도 상관관계가 나타나는 경우가 흔하다. 

 

예시)

남자아이들이 지능과 바지 길이 사이에 높은 상관관계가 있지만 딱 보기에도 전혀 관계가 없다는 것을 알 수 있다. 

 

보통 상관계수는 피어슨 상관계수(두 개의 연속 변수), 스피어만 상관계수(서열 척도 간의 관계),, 등등이 있다. 

상관계수는 -1 <= X <= 1 안에 존재하며 아래의 표와 같이 해석할 수 있다. 

양의 상관계수는 두 변수가 있을 떄 x축이 증가하면 y축 변수도 증가하고 있다는 의미

예시 )

키가 커지면 커질수록 몸무게가 증가하는 것은 양의 상관계수를 띄고 있다는 것을 알 수 있다. 

 

 

상관계수가 0일 때는 선형 상관관계가 없다는 것을 의미하고 아래의 그림과 같이 중구난방 하게 값들이 퍼져있는 것을 볼 수 있다.

 

 

음의 상관계수는 두 변수가 있을 때 x축이 증가하면 y축 변수는 감소하고 있다는 의미이다. 

예시 )

담배값을 올리면 흡연율이 줄어드는 것은 음의 상관관계를 가지고 있다는 것을 알 수 있다. 

 

 

728x90

댓글