CODING/AI & ML & DL
[Python/데이터분석] 상관계수 해석
밍톨맹톨
2021. 9. 5. 15:03
728x90
728x90
상관계수란?
어떤 변수가 증가할 때 다른 변수가 함께 증가하는지, 감소하는지 파악하는 것을 말함.
데이터에서 상관관계를 조사하는 것은 중요한 역할을 하기도 하지만
대부분의 데이터에서 두 변수를 조사했을 때 두 변수가 전혀 관계가 없는 경우보다 작게라도 상관관계가 나타나는 경우가 흔하다.
예시)
남자아이들이 지능과 바지 길이 사이에 높은 상관관계가 있지만 딱 보기에도 전혀 관계가 없다는 것을 알 수 있다.
보통 상관계수는 피어슨 상관계수(두 개의 연속 변수), 스피어만 상관계수(서열 척도 간의 관계),, 등등이 있다.
상관계수는 -1 <= X <= 1 안에 존재하며 아래의 표와 같이 해석할 수 있다.
양의 상관계수는 두 변수가 있을 떄 x축이 증가하면 y축 변수도 증가하고 있다는 의미
예시 )
키가 커지면 커질수록 몸무게가 증가하는 것은 양의 상관계수를 띄고 있다는 것을 알 수 있다.
상관계수가 0일 때는 선형 상관관계가 없다는 것을 의미하고 아래의 그림과 같이 중구난방 하게 값들이 퍼져있는 것을 볼 수 있다.
음의 상관계수는 두 변수가 있을 때 x축이 증가하면 y축 변수는 감소하고 있다는 의미이다.
예시 )
담배값을 올리면 흡연율이 줄어드는 것은 음의 상관관계를 가지고 있다는 것을 알 수 있다.
728x90