상관 계수와 벡터의 내적

By | November 21, 2017

1. 상관 계수의 용도와 정의

상관 계수는 연속적으로 변하는 두 변수 간의 (상관) 관계를 확인하고 싶을 때 사용할 수 있다.

가령 몸무게와 키의 상관 관계라던지, 수학 점수와 영어 점수 간의 상관관계 같은 것들을 확인할 수 있다.

연속적으로 변하는 두 변수 간의 관계는 graphically 확인할 수도 있는데 두 개의 연속적으로 변하는 n개의 변수 쌍을 각각 x 축과 y 축에 대입해서 그리면 산점도(scatter plot)를 그릴 수 있다.

예를 들어 아래는 500명 학생의 수학, 영어 점수의 산점도를 그린 것이다.

그림 1. 산점도의 예시 plot. 수학 점수와 영어 점수 간의 양의 상관 관계가 보인다.

상관 계수는 다음과 같이 정의할 수 있다.

n개의 dataset 에 대해서

그림 1에서와 같이 500명의 데이터에 대해 상관 관계를 확인하라고 하면

이 식에 대입해서 숫자를 출력하면 되지만 이 식은 과연 어떤 의미가 있는 것일까? 그것은 벡터의 내적과 연관성이 있다.

2. 벡터의 내적

임의의 2차원 벡터 a⃗ a→b⃗ b→를 생각해보자.

두 벡터의 내적은 다음과 같이 정의된다.

벡터 a⃗ a→b⃗ b→를 각각 (2,3), (3,0)이라고 한다면 두 벡터의 내적은

이다.

그림 2

한편, 벡터의 내적은 기하학적으로

a⃗ a→의 b⃗ b→로의 정사영에 b⃗ b→의 크기를 곱한 것’

이라는 의미도 가진다.

즉, 아래의 그림 3에서 볼 수 있듯이 기하학적 의미로 두 벡터의 내적은

이다.

그림 3. a⃗ a→의 b⃗ b→로 향하는 정사영

그렇다면 두 벡터의 내적과 |b⃗ ||b→|의 크기를 이용하면 a⃗ a→의 b⃗ b→로의 정사영의 길이를 알 수 있다.

즉, a⃗ a→의 b⃗ b→로의 정사영의 길이 projbaprojba 는 다음과 같다.

이 때 우리는 projbaprojba의 의미를 조금 다르게 해석해 볼 수도 있다.

a⃗ a→의 변화를 b⃗ b→가 얼마만큼 설명해줄 수 있는가?” 
라고 말이다.

한편, a⃗ b⃗ =b⃗ a⃗ a→∙b→=b→∙a→이다.

즉, 내적의 순서는 상관없다. 다시 말하면 b⃗ b→의 a⃗ a→로의 정사영의 길이, projabprojab는 다음과 같이 구할 수 있다.

마찬가지로 projabprojab 또한 이렇게 해석해 볼 수 있겠다.

b⃗ b→의 변화를 a⃗ a→가 얼마만큼 설명해줄 수 있는가?” 
그림 4. b⃗ b→의 a⃗ a→로 향하는 정사영

종합하자면 다음과 같이 설명할 수 있을 것이다.

① a⃗ a→와 b⃗ b→의 관계를 알고싶다. a⃗ b⃗ →a→∙b→

② a⃗ a→가 b⃗ b→를 설명하는 정도를 파악하려면?  ×1|a⃗ |×1|a→|

③ b⃗ b→가 a⃗ a→를 설명하는 정도를 파악하려면?  ×1|b⃗ |×1|b→|

따라서 a⃗ a→와 b⃗ b→가 서로를 설명하려면 ×1|a⃗ |×1|b⃗ |→×1|a→|×1|b→|

그러니까 a⃗ a→와 b⃗ b→가 서로를 설명하는 양은

라고 할 수 있다.

3. 다시 상관 계수로 !

다시 상관 계수의 식을 보자.

이 중에서

는 정규화 과정과 매우 관련이 있어 보이긴 한다. 하지만 이번에는 (xiX¯)(xi−X¯)와 (yiY¯)(yi−Y¯)를 떼어서

생각해보자. 그리고 sX¯sX¯와 sY¯sY¯는 (xiX¯)(xi−X¯)(yiY¯)(yi−Y¯)와 관계가 있다는

사실을 알고 있으니 식을 아래와 같이 변경할 수 있다.

여기서 a⃗ =xiX¯a→=xi−X¯b⃗ =yiY¯b→=yi−Y¯라 하자.

그러면 위 식은 다음과 같이 쓸 수 있다.

다시 말하면 상관 계수 rr

a⃗ a→와 b⃗ b→의 관계에 대해 서로가 얼마나 서로를 설명하는가?”

또는

xiX¯xi−X¯와 yiY¯yi−Y¯의 관계에 대해 서로가 얼마나 서로를 설명하는가?”

라는 뜻이 된다. 이 말은 다시 말하자면 dataset이 원점으로부터 얼마나 떨어져있는지는 무시하고 서로 퍼진 정도만 보겠다는 의미이다.

그림 5. 왼쪽 그림에서는 산점도의 중심이 (3,2)이지만 상관 관계는 데이터 셋이 원점으로부터 얼마나 떨어져있는지 관계없는 양이다. 따라서 오른쪽 그림처럼 상관 관계의 식으로부터 원점으로만큼 떨어진 정도를 무시할 수 있게 한다.

또 한편,

이었는데,

이므로,

라고 말하는 것은 매우 자연스럽게 생각할 수 있다.