January 4, 2017

데이터 아무리 쌓여도 우문엔 현답 없다

2016년 12월 29일 한국경제신문에 기고했던 글을 옮깁니다. (제목 클릭하면 원본기사로 이동)

지난 11월 중국의 상하이지아통 대학에서 사람의 얼굴 사진만 보고 범죄자 여부를 판단하는 실험에 관한 논문(“Automated Inference on Criminality using Face Images”)을 발표했다. 연구자들은 중국 남성을 대상으로 700명의 범죄자(수배중인 300명 포함)들과 1,100명의 다양한 직업을 가진 비범죄자들의 사진을 데이터로 활용하였다. 다양한 인공지능 알고리즘으로 범죄자와 그렇지 않은 사람을 구분짓는 얼굴의 특징(미간 사이의 거리, 코끝과 양 입꼬리 사이의 각도 등)을 분석했고 90%에 가까운 정확도로 두 집단을 구분하는 분류규칙을 만들 수 있었다.

범죄가 일어나기 전에 범죄를 예측해 범죄자를 단죄하는 미래를 그린 영화 “마이너리티 리포트”를 떠올리게 하는 이 논문은 당신이 데이터와 세상에 대해 가지고 있는 가정과 질문에 따라 전혀 상반된 해석이 가능하다.

만약, 현재의 사법 시스템이 공정하게 작동하고 있다는 가정 아래에 사람 얼굴의 특징과 범죄행위와 관련이 있는가라는 질문을 품고 분석을 시작했다면 분석 결과는 얼굴 특징과 범죄행위 사이에 아주 높은 상관관계가 있다는 객관적인 증빙이 될 것이다.
반대로, 현재의 사법 시스템이 체포에서 심판의 과정 전반에 걸쳐 특정 생김새의 사람을 차별하고 있다는 가정 아래에 정말 특정한 얼굴 생김새를 가진 사람들이 유죄판결을 더 받는가라는 질문으로 데이터 분석을 수행했다면 동일한 결과에 대해 전혀 다른 해석이 가능했을 것이다.

이처럼 사람의 특정 행위를 설명하고 예측하는 모형을 만드는 경우, 우리가 이미 세상에 가지고 있던 믿음이나 데이터를 통해 확인하려고 하는 질문에 따라 분석 결과에 대한 해석이 크게 달라지게 된다. 직원들의 성과와 관련된 다양한 질문들에 대한 객관적 답을 찾는 작업인 피플 애널리틱스를 수행할 때 역시 어떤 분석 기술을 사용하는가 만틈 어떤 데이터에 어떤 질문을 하는 지가 중요하다. 오늘은 피플 애널리틱스의 과정 중 “문제정의”와 “분석결과 활용”에 대해 살펴 보겠다.

문제 정의
문제 정의, 즉 데이터에 좋은 질문을 하는 방법과 관련하여 몇 가지 조언을 한다면 다음과 같다.
이미 확보하고 있거나 쉽게 수집 가능한 데이터에서 답을 찾을 수 있는 문제: 신뢰할 수 있고 익숙한 데이터에서 시작하는 게 좋다. 확보 가능한 데이터에 대한 이해없이 문제부터 정하게 되면 필요한 데이터를 추가로 수집, 준비하느라 프로젝트의 일정이 지연되거나 나쁜 분석결과가 나오기 쉽다.
바람직한 답변이 없는 질문 : 바람직한 답변이 이미 – 마음 속이나 조직 내에 - 정해져 있는 경우나 특정한 분석 결과가 조직 내에서 너무 큰 반향과 혼돈을 불러올 수 있다면 분석 및 결과 해석의 과정에서 객관성이 흔들릴 수 있다.
작고 구체적인 질문 : 성과분석이라는 거창한 주제보다는 ‘5년차 이상 영업직의 성과 요인 분석’, 성과창출 리더십 요인보다는 ‘높은 만족도(낮은 퇴사율)를 보이는 조직의 리더십 특성’ 등 구체적인 질문이 좋다.
비즈니스 문제 : 인사 문제가 아니라 비즈니스 문제에서 시작하라. 예를 들면, 객관적인 성과데이터 확보가 용이한 영업직군에 대한 성과창출 요인분석, 또는 신입사원 선발에 공식·비공식으로 적용되었던 잣대(출신학교, 전공, 성별 등)들과 실제 성과와의 상관관계를 분석하여 결과를 공유하는 것도 좋다.

분석결과 활용
아무리 좋은 모형을 수립했을지라도 해당 모형을 현실에 적용하는 것은 쉬운 일이 아니다. 인사의 경우 모형을 적용한 효과를 바로 확인하기가 쉽지 않고, 모형 적용에도 불구하고 원하지 않는 결과가 나타난 경우 그 파장 역시 작지 않기 때문이다.
핵심인재 퇴사예측모형을 수립했다고 가정하자. 해당 모형에 의해 승진누락, 적은 교육시간, 부하직원 퇴사율이 높은 매니저 등의 요인으로 3개월 이내 퇴사위험도가 90%라고 예측된 핵심직원이 있다. 인사부서에서 모델이 가르쳐준 대로 현실에 적극 개입하여 승진도 시켜주고, 외부 교육도 보내주고, 원하는 부서로 옮기게까지 해줬다. 하지만 이런 노력에도 불구하고 해당 핵심인재는 오만가지 이유로 회사를 떠날 수 있다.
인간과 인간사의 복잡성을 고려한다면 몇 개의 요인으로 퇴사를 비롯해 사람의 특정 행위를 정확하게 예측한다는 것은 터무니없다. 또한, 예측모형의 효과를 검증할 수 있는 충분한 사건들이 축적되는데 상당히 오랜 시간이 걸린다는 단점도 있다.
물론, 개인수준의 정확한 예측이 어렵다고 예측모형이 무용지물이라는 것은 아니다. 예를 들면, 특정 특성을 공유하는 집단의 퇴사위험도가 다른 집단에 비해 월등히 높다면 보다 정교한 타게팅으로 비용 대비 효과가 높은 직원보유 정책을 펼칠 수 있다.

모형을 현실에 적용한 결과가 좋지 못한 경우 조직에서 가해질 처벌이나 비난에 대한 두려움은 모형적용을 어렵게 하는 또 다른 이유이다. 시행착오에 관대하지 못한 보수적 기업문화라면 더욱 그렇다. 직장 내 정치적 행위를 통해 다양한 집단의 이해관계가 조정되고 조직이 일관된 변화의 방향을 향해 움직일 수 있다는 것을 생각한다면 피플 애널리틱스는 정치적 행위이기도 하다. 조직의 문화나 정치적 지평을 이해하고 이해당사자 간의 역학관계를 이해하여 가장 효과적인 개입 방식을 찾아 변화를 관리하는 역량 역시 피플 애널리틱스를 하는 사람이 갖추어야 하는 중요한 덕목이다.

미국 펜실베니아주에서는 가석방 결정에 인공지능 알고리즘이 예측한 가석방 기간 중 범죄를 저지를 위험도를 활용한 이후 가석방 기간 재구속률이 획기적으로 줄었다. 형량을 선고하는 것에 비하여 가석방 여부를 결정하는 것은 덜 민감한 사안이긴 하다. 하지만, 펜실베니아주에서 알고리즘의 공정성 논란(실제 가석방 기간 재구속될 위험도를 계산할 때 소득/교육 수준이나 출신 지역처럼 그 사람의 가난한 정도와 관련된 변수들이 큰 영향을 준다고 함)을 감수하면서까지 가석방 결정에 기계의 도움을 계속 받는 이유는 기계의 결정을 참고하여 이전보다 더 좋은 결정을 할 수 있고, 그 결과가 사회 전체에 유용하기 때문이다.

사람의 판단에 편견과 주관이 개입되지 않을 수 없다. 인사 평가 결과도 특정인의 노력과 성과뿐만 아니라 그 평가를 내린 개인의 편견과 조직의 내에 통용되는 관행들이 일정 부분 반영된 결과이다. 평가 데이터에 담겨있는 소음(Noise)을 걸러내고 유용한 신호(Signal)를 찾아내는 것은 데이터에 좋은 질문을 하는 능력과 진실보다 유용성에 집중하려는 실용적 태도에 달려있다.

Kudos

데이터 아무리 쌓여도 우문엔 현답 없다

Now read this

상관관계가 상관있냐?