January 5, 2017

사실이 없으면 세상에 대한 해석은 애당초 가능하지 않다네…

한국경제신문 2017년 1월 5일자 지면에 소개된 글을 옮깁니다.

미국의 심리학 교수 폴 밀(Paul Meehl)은 본인의 저서 [임상적 예측과 통계적 예측의 비교(Clinical versus Statistical Prediction)]에서 “부러진 다리 사례(broken leg case)”로 알려진 내용을 소개한 바 있다.

내용을 간략히 옮겨보면 이렇다. 과거 데이터에 따르면 김교수님은 매주 화요일 저녁마다 동네 극장에 갔다. 그런데, 김교수님이 지난 주말 저녁에 다리가 부러져 깁스를 하게 되었다. 해당 사실을 모르는 (알 수 없는) 통계 모델은 통계적 추론을 통해 이번 주 화 저녁에도 김교수님이 영화를 보러 갈 것이라고 높은 확률로 예측을 할 것이다. 반면, 동네 사정을 훤히 꿰고 있는 극장 매니저 최씨는 김교수님이 당분간 극장 출입을 못 할 거라는 사실을 잘 알고 있을 것이다.

최씨의 경우처럼 기계(알고리즘)가 모르는 “유용하고 적절한 사실”을 아는 경우 기계의 예측을 무시해도 좋다. 중요한 것은 나는 알고 기계는 모르는 사실이 예측하려고 하는 행위와 관계가 있는지 여부이다. 면접관이 면접을 통해 지원자 역시 나랑 같은 야구팀의 골수팬이라는 사실을 알게 되었다고 하자. 해당 사실은 예측하려고 하는 행위(우리 회사에서 일을 행복하게 오래 잘 할지 여부)와 관계가 없는 무시해야 하는 정보이다.

이번 기사에서는 피플 애널리틱스의 맥락에서 데이터 분석을 수행할 때 활용할 수 있는 데이터 분석 기술과 각각의 한계점을 간단히 살펴 보겠다. 분석 기술의 장점과 한계에 대해 이해한다면 나의 주관적 경험과 지식을 분석 알고리즘이 발견한 패턴과 조화하여 더 좋은 의사결정을 내릴 수 있을 것이다.

기술 분석 (Descriptive Analysis)
데이터에 대한 요약(총합, 평균, 최대값, 비율 등)이 필요한 경우 기술분석(여기서 기술은 묘사한다는 의미임)을 한다. 복잡한 분석 기법이 반드시 좋은 것은 아니다. 만약, 분석 목적이 서로 다른 집단 사이에 차이가 존재하는지 확인하는 것이라면 기술 분석이면 충분하다.
세일즈포스(Salesforce)라는 글로벌 고객관리(CRM) 솔루션을 판매하는 회사는 영업직원을 채용할 때 기업용 소프트웨어를 판매해 본 경험이 있는 사람들로 채용풀을 제한해왔다. 하지만 피플 애널리틱스 팀에서 가장 뛰어난 영업사원 100명의 데이터를 분석하여 입사 전 기업용 소프트웨어 판매 경험이 영업사원의 성과와 관계가 없다는 걸 확인했고 이후 다채로운 경력의 후보자들을 대상으로 채용풀을 확장할 수 있었다. 기존에 통용되는 믿음·가설(소프트웨어 판매 경험은 영업사원의 업무성과와 관련이 높다)이 있었고, 소프트웨어 판매 경험이 있는 우수영업사원과 그렇지 않은 우수영업사원의 비율을 비교하는 것만으로 해당 믿음·가설이 객관적 근거가 없음을 입증한 것이다.

집단 사이의 평균값을 비교하는 기술 통계 방식의 장점이 쉽고 직관적인 것이라면 단점은 분석 대상을 어떻게 나누어서 평균값을 비교하느냐에 따라 서로 다른 결과가 나올 수 있다는 것이다. 심슨의 역설(Simpson’s Paradox)이라고도 불리는 이 문제를 직원 퇴사율을 예로 하여 살펴보면 아래 그림과 같다.

퇴사율을 사업장 단위(하나의 차원)로 비교했을 때는 B사업장이 높았지만, 사업장별 퇴사율을 남녀로 한 번 더 쪼개서(두개의 차원 사용) 비교한 경우는 A사업장이 남녀 모두 퇴사율이 높게 나왔다. (B사업장에 퇴사율이 상대적으로 높은 여자의 비율이 높기 때문에 나타난 현상임) 이처럼 낮은 차원에서 주요 지표를 비교하는 경우 복잡다단한 현실이 뭉뚱그려진 수치로 제시될 수 있다는 점을 유념하자.

예측 분석 (Predictive Analysis)
인사의 영역에서 예측분석이 어려운 이유는 우리가 이해·예측하고자 하는 행위와 관련된 정보들의 많은 부분을 데이터(예측·설명변수)로 담아내기 힘들기 때문이다. 특히, 팀 단위로 움직이는 지식 노동자의 성과의 경우 개인의 노력·재능·경험 못지않게 경쟁·경제 상황, 동료·부서장과의 관계 등 개인의 통제 밖에 있는 우발적이고 정량화하기 힘든 요인들의 영향으로 정확한 예측모형을 수립하기 어렵다.

온라인에서 소비자가 구매할 확률이 높은 상품을 추천하는 경우와 같이 마케팅의 영역에서는 모형의 예측력이 설명력보다 중요하다. 이전과 비교하여 고객의 구매율이 올랐다면 모형의 투명성과 설명력은 크게 중요하지 않다. 반면, 인사의 경우는 예측력보다 설명력이 항상 우선시 되어야 한다. 인사 데이터 분석의 경우 최신 인공지능 알고리즘으로 모형의 예측정확도를 90%까지 끌어 올렸다하더라도 모형의 작동원리에 대해 투명하고 논리적인 설명이 제공되지 않는다면 현실을 더 객관적으로 이해하고 개선해 나갈 수 없다. 인사 데이터를 분석할 때는 예측력보다 설명력이 좋은 투명한 알고리즘(회귀분석, 의사결정트리)부터 사용하는 것이 바람직하다.
우리가 데이터 분석을 하는 것은 희미하지만 분명히 존재하는 느낌, 말로 설명하기 힘들었던 직원들의 경향성을 정량적으로 설명하고 주장하기 위해서이다. 모두가 공감하고 수긍할 수 있는 진단이 있은 연후에 처방도 가능하다. 작동방식이 불투명한 모형(블랙박스 모형)을 사용하는 것은 모형의 적용이 가져올 직원들에 대한 잠재적 차별에 대해 투명하고 객관적 근거를 제시하지 못한다는 점에서 법률적 위험이 따를 수도 있다.

데이터 분석의 세계에는 근사치로 표현되는 사실만 있지 참값(진실)은 존재하지 않는다. 하지만, 사실이 없다면 세상에 대한 해석은 애당초 가능하지 않다. 익숙한 것을 참된 것이라고 믿고 싶어하는 우리의 뇌에 분석을 통해 발견한 불편할 수도 있는 사실들을 지속적으로 노출시켜 직원들을 있는 그대로 바라보려는 노력이 필요하다.

Kudos

사실이 없으면 세상에 대한 해석은 애당초 가능하지 않다네…

Now read this

basic data type (기본적인 데이터 종류)