반응형
2차원(2변수) 데이터
수치지표 : 공분산, 상관계수
그래프 : scatter
공분산 Covariance
공분산의 값이
양수 : 양의 상관 관계를 가진다
음수 : 음의 상관 관계를 가진다
0 : 두 변수의 관계가 없다
공분산이 0에 가까울수록 상관 관계가 없다고 말할 수 있다.
공분산의 크기는 상관이 없다. 데이터의 단위가 모두 다르기 때문!

초록선 : 평균
각 점의 x 편차, y편차를 구해 곱하면 면적이 나옴
물론 면적은 음수가 존재하지 않지만, 그렇다치면...
그 면적들을 다 더한 것이 공분산
점들이 평균을 기준으로 1사분면, 3사분면에 많으면 면적들의 합이 양수가 나올 것이고
2사분면, 4사분면에 많으면 면적들의 합이 음수가 나올 것이다.
상관계수 (correlation coefficient)
공분산을 두 표준편차로 나눈 수
단위에 차이에 따른 공분산의 크기를 통일시켜
-1~1 사이의 값을 가진다.
값이 0이면 두 변수는 관계가 없고,
|1|에 가까울수록 상관 관계가 크다고 말할 수 있다.
상관관계 (correlation)
두 요소가 서로 연관성이 있다고 추측되는 관계.
인과관계를 설명하지는 않는다!
ex. 성적과 자존감, 온라인 게임과 폭력성
이 예시들은 서로 연관성이 있을 수 있지만 인과관계는 아니다.
(인과관계는 회귀분석 regression analysis)
시각화
scatter

heat map

반응형
'AI' 카테고리의 다른 글
[ML] Linear Regression 구현, sklearn과 비교 (0) | 2022.03.29 |
---|---|
[ML] Linear Regression (0) | 2022.03.28 |
파이썬으로 수치미분 구현하기 - 중앙차분 (0) | 2022.03.25 |
Machine Learning 개요 (0) | 2022.03.24 |
기술통계 - 1차원 데이터 (0) | 2022.03.23 |