상관관계가 상관있냐?

데이터를 분석해서 모형을 만드는 이유는 특정 변수(성과, 매출, 위반 등)에 영향을 미치는 다른 변수들(학점, 나이, 소득 수준, 성격/태도)을 이해하여 현실에 개입(intervention)하기 위해서이다.
Bias를 진실(현실)과 모형의 분석결과 사이의 차이라고 한다면 Bias는 아래 세가지 불확실성에서 기인한다.

오늘은 이런 불확실성과 모델에 내재된 Bias를 불가피한 조건으로 인정했을 때 분석 결과로 얻은 상관관계(선형적 관계 내지 평균의 차이 등)를 어떻게 이해하고 활용해야 하는지에 대해 이야기해보려 한다.

직원들의 성과점수 분석을 했더니 명문대 출신들이 성과 점수가 통계적으로 유의미하게 높게 나왔다고 하자.
명분대 출신들이 일을 잘한다고 할 수 있을까? 출신대학과 성과점수 간의 관계가 관찰/측정되지 못한 제삼의 변수 때문일 수도 있지 않을까? 명문대 출신이기 때문에 신입사원 때부터 성과를 내기 좋은 프로젝트/업무에 배정되고, 그 경험을 통해 fast track을 밟게 되고, 명문대출신이기 때문에 명문대 출신 매니저들이 의식, 무의식적으로 더 좋은 평가를 하고…
만약 성과점수와 출신대학 간에 상관관계가 나타난 원인이 후광효과와 정실인사때문이었다면 명문대학 출신을 더 많이 뽑는 것은 회사의 근본적인 성과 개선과는 상관없이 그냥 기존의 현실 - 대부분의 경우 만족스럽지 않은 현실 - 을 더욱 공고화하고 강화하는 일일 것이다.

그렇다면, correlation(상관관계)을 어떻게 해석해야 하나? 결론부터 말하면, 특정 특성이나 행위를 보인 사람들이 많이 모여있는 그룹을 찾는 데 활용할 수 있다.
예를 들면, 당신이 대학가에 고급 오피스텔을 지었다고 하자. 입주자를 모집하기 위해 광고를 하고 싶은데 동네에 명문A대와, 비명문B/C대학이 있다고 하자. 주변의 고급 오피스텔의 입주자 분석을 하니 명문A대 입주자 비율이 상대적으로 높았다면 (아마도 명문대에 자식을 보낸 부모의 재력때문에) 전단지 역시 명문대에 집중적으로 붙이는 게 효과적이다.
즉, 특정 특성/행위를 보인 사람이 더 많이 모인 집단을 단순히 찾고자 할 때는 correlation 결과를 활용해도 안전하다.

이번에는 고급 오피스텔 건물주인 당신이 명문대학생들은 고급 오피스텔을 선호하고 또 감당할 재력도 있다고 생각하고 (인과관계, causal relationship,가 존재한다고 믿고) 로비를 통해 지역의 비명문B대학을 명문B대학으로 만들었다. 공교롭게도 마침 입시제도가 바뀌어서 부모님의 재력이 자녀의 명문대 진학에 미치는 영향이 아주 제한적이 되었다고 하자. 이런 상황에서는, 하나의 변수(명문대학생 수)를 바꾸어서 다른 변수(고급 오피스텔 입주자수)를 개선하려고 했던 나의 행위(intervention)가 부질없게 된다.
이건 spurious correlations (인과관계가 없는 상관관계)에 기반하여 intervention을 했기 때문이다. 명문대학 진학, 고급 오피스텔 선호, 두 변수에 모두에 영향을 미쳤던 제삼의 변수(confounding factor), 즉 부모님의 재력이 있었는데 입시제도가 바뀌어 부모님의 재력이 더 이상 명문대학 진학에 영향을 못 미치는 상황이 오는 순간 상관관계도 사라진 것이다.
정리하면, intervention이 필요한 경우 (즉, 하나의 변수값을 바꾸어 다른 변수값을 바꾸고자 하는 경우. 명문대 출신을 많이 뽑아 회사의 성과를 개선한다든지)는 변수간 상관관계가 아니라 인과관계(causation)가 필요하다.

correlation은 쉽고 빠르다. 반면 causation을 확인하는 일은 어렵고 오래걸린다.
이건, correlation은 관찰된 데이터로 쉽고 싸게 확인할 수 있지만 causation은 실험(longitudinal/experimental data 분석)을 통해 오랜기간에 걸쳐 확인해야 하기 때문이다.
그렇다면, correlation 정보를 가지고 intervention을 하고 싶다면 어떻게 해야할까.
상관관계가 나타난 두 변수 사이(예, 출신대학과 성과점수)에 영향을 미치는 제 삼의 변수(confounder)가 없다고 확신한다면 - 그리고 현실적으로 이것을 확인할 방법도 없다면 -, correlation 정보에 기반해서 세상사에 개입해도 좋다. 어차피 우리 모두 불확실하고 제한된 정보를 가지고 결정을 내릴 수밖에 없다.

이 글은 “Why”라는 책과 블로그를 참고하여 작성하였습니다.
스크린샷 2016-08-26 09.16.58.png

 
11
Kudos
 
11
Kudos

Now read this

데이터 아무리 쌓여도 우문엔 현답 없다

2016년 12월 29일 한국경제신문에 기고했던 글을 옮깁니다. (제목 클릭하면 원본기사로 이동) 지난 11월 중국의 상하이지아통 대학에서 사람의 얼굴 사진만 보고 범죄자 여부를 판단하는 실험에 관한 논문(“Automated Inference on Criminality using Face Images”)을 발표했다. 연구자들은 중국 남성을 대상으로 700명의 범죄자(수배중인 300명 포함)들과 1,100명의 다양한 직업을... Continue →