728x90
728x90
상관계수란?
어떤 변수가 증가할 때 다른 변수가 함께 증가하는지, 감소하는지 파악하는 것을 말함.
데이터에서 상관관계를 조사하는 것은 중요한 역할을 하기도 하지만
대부분의 데이터에서 두 변수를 조사했을 때 두 변수가 전혀 관계가 없는 경우보다 작게라도 상관관계가 나타나는 경우가 흔하다.
예시)
남자아이들이 지능과 바지 길이 사이에 높은 상관관계가 있지만 딱 보기에도 전혀 관계가 없다는 것을 알 수 있다.
보통 상관계수는 피어슨 상관계수(두 개의 연속 변수), 스피어만 상관계수(서열 척도 간의 관계),, 등등이 있다.
상관계수는 -1 <= X <= 1 안에 존재하며 아래의 표와 같이 해석할 수 있다.
양의 상관계수는 두 변수가 있을 떄 x축이 증가하면 y축 변수도 증가하고 있다는 의미
예시 )
키가 커지면 커질수록 몸무게가 증가하는 것은 양의 상관계수를 띄고 있다는 것을 알 수 있다.
상관계수가 0일 때는 선형 상관관계가 없다는 것을 의미하고 아래의 그림과 같이 중구난방 하게 값들이 퍼져있는 것을 볼 수 있다.
음의 상관계수는 두 변수가 있을 때 x축이 증가하면 y축 변수는 감소하고 있다는 의미이다.
예시 )
담배값을 올리면 흡연율이 줄어드는 것은 음의 상관관계를 가지고 있다는 것을 알 수 있다.
728x90
'CODING > AI & ML & DL' 카테고리의 다른 글
[MacOs / Error] xcrun: error: invalid active developer path 해결법 (0) | 2022.02.13 |
---|---|
[Python/sklearn] Scaler 별 특징 / 사용법 / 차이 / 예시 (0) | 2021.10.07 |
[NLP] python / Keras를 사용한 챗봇 만들기 (0) | 2021.06.06 |
[ML] BoVW : bag of visual words | Feature engineering (1) | 2020.12.22 |
[기계학습] 의사결정나무 | Decision Tree (0) | 2020.10.30 |
댓글