미국 내 주요 일간지에 십자낱말 퍼즐(crossword puzzle)을 가장 왕성하게 공급해온 Timothy Parker라는 사람이 뉴욕타임즈의 십자낱말 퍼즐을 왕성하게 표절해온 사실이 최근 밝혀진 적이 있다.

수십만명이 넘는 골수 퍼즐 매니아들이 십년이 넘도록 알아채지 못 한 표절 사실을 밝혀낸 것은 바로 Saul Pwanson이라는 소프트웨어 엔지니어였다. 아마추어 십자낱말 퍼즐 제작자이기도 한 Pwanson은 52,000개의 십자낱말 퍼즐 데이터베이스를 - 취미로 - 구축한 후 유사한 퍼즐을 찾는 프로그램을 개발하여 분석 결과를 공개하였다.

십자낱말 퍼즐은 아래의 네가지 요소로 구성된다.

The theme(테마): 퍼즐의 정체성을 구성하는 핵심 요소로서 퍼즐을 독창적으로 만들어준다. 퍼즐 제작자들이 창작의 과정에서 제일 어려워 하는 부분이기도 하다. 테마는 대개 퍼즐의 답변 중 가장 긴 답변들이며 테마 답변들은 서로 재치있게 연관되어 있다.
The fill: (테마 답변을 제외한) 퍼즐의 (채워넣어야 하는) 나머지 답변들
The grid: 퍼즐을 구성하는 희고 검은 사각형들
The clues: 답변에 대한 단서

아래 그림[실제 표절 사례 중 하나]에서 제일 긴 세개의 답변을 보면 모두 Exasperate(화나게 하다)라는 뜻의 관용구들이며 이 답변들이 해당 퍼즐의 테마가 된다.

Pwanson은 퍼즐 간 Grid의 유사도(동일한 위치의 사각형에 담긴 내용의 유사도)와 답변의 유사도(위치와 무관하게 전체 답변 갯수 중 동일한 답변의 수)를 계산하였다. 아래 그림처럼 “A라는 퍼즐과 B라는 퍼즐은 Grid의 유사도 96%, 총 76개의 답변 중 71개가 일치"와 같은 식으로 두 퍼즐간의 유사성을 계산한 것이다.
(실제 표절 여부를 판단하는데는 테마의 유사성이...

People Analytics이 뭐냐고 물으신다면

People Analytics 정의

People Analytics는 “인적자원관리에 수학/과학을 적용한 것이다”라고 (정없게) 정의할 수 있다.

좀 더 풀어서 정의한다면 People Analytics는 “행동과학, 통계학, 기계학습, 데이터 시각화 기술을 인적자원 데이터에 적용하여 직원과 관련한 주요 문제들에 대해 확률과 객관에 기반한 의사결정을 내리도록 하여 궁극적으로 더 좋은 사업 성과를 성취할 수 있도록 하는 방법이자 도구이다.” (그렇다. 모든 좋은 정의는 그 정교함과 엄정함 때문에 보는 이를 화나게 한다.)

확률적 판단은 결국 내가 내린 결정이 맞는 날도 있고 그렇지 않은 날도 있다는 뜻이다. 하지만 장기적인 관점에서 보면 과거(무원칙)와 비교하여 더 옳고 더 나은 결정을 더 자주하게 될 것이다.

People Analytics를 하는 이유는(목적) 내 비지니스 성공에 실질적인 기여를 하는 사람들의 속성(재능/태도/경험/행위)의 차이를 발견하고, 차이를 새롭게 만들어 내고, 또 그 차이를 지켜가는 것이다.

People Analytics는 HR 문제를 해결하기 위해 존재하지 않는다. Business 문제를 해결하기 위해 사람과 관련하여 더 좋은 의사결정을 내리고, 사람과 관련된 정책/제도/시스템을 최적화하기 위한 도구이자 방편이다. People Data에서 발견한 의미있고 뻔하지 않은 패턴에 기대어 사람(직원)들을 기존의 “무원칙(직감/감)”이나 “결정론적” 틀이 아닌 “과학적(객관/증거)”이고 “확률적” 틀로 바라보고 관리하자는 것이다.

직관 또는 경험에서 얻은 지식(Heuristics)에 기댄 결정이 반드시 객관과 확률에 의한 판단보다 열등한 것은 아니다. 소방관, 군인, 조종사들의 경우 경험에서 얻은 지식/직관에 기대어 주어진 업무에서 높은 성과를 낼 수...

데이터 분석의 종류 Cheat Sheet

데이터를 통해 이해하고자 하는 것 - 데이터에 묻고 싶은 질문의 종류 - 에 따라 데이터 분석 방법을 정해야 합니다.
데이터 분석 방법의 종류와 간단한 설명을 아래에 옮겨 봅니다.

묘사/기술 분석: 인구조사와 같이 데이터에 대한 요약이 필요한 경우
탐험적 분석: 가설 수립, 패턴 발견 등을 목적으로 데이터 모양, 변수간의 관계 등을 요모조모 살펴보고자 하는 경우
추론분석: 관찰된 패턴/관계를 정량적 분석을 통해 모집단 수준에서 일반화하고자 하는 경우 (공기오염과 수명 간의 관계)
예측분석: 변수/속성들의 부분집합(feature)을 사용해 (모집단이 아니라) 구체적인 개인의 특정 변수/속성값을 예측하고자 하는 경우
인과분석: 변수들 간의 인과관계를 파악하고자 하는 경우 (흡연과 폐암간의 관계)
기계분석: A라는 변화가 항상, 그리고 배타적으로 B라는 변화를 가져오는 결정론적 관계를 분석하고자 하는 경우 (사람에 대한 분석의 경우 거의 해당사항 없음)

People Analytics: 10가지 교훈 (part-1)

HR Tech 전 분야에서 좋은 분석과 전망을 보여주고 있는 Deloitte의 Josh Bersin의 링크드인 기고문을 적당히 번역/구성했습니다.
(원문: https://www.linkedin.com/pulse/people-analytics-takes-off-ten-thhings-weve-learned-josh-bersin)

1. People Analytics - 생각보다 중요하더라.

우리(딜로이트)가 실시한 2015년 인적자원 조사 보고서에 의하면 리더들의 87%는 직원 유지와 몰입에, 86%는 리더쉽에, 85% 정도는 현재 인적자원이 보유하고 있는 재능/기술에 대해 심각하게 걱정을 하고 있다.
회사들이 연례 행사처럼 실시하고 있는 직원 몰입도/만족도 설문조사에도 불구하고, Glassdoor(직원들이 익명으로 자신이 다니는 회사에 대해 평가하는 서비스)의 평가 결과에 따르면 회사들이 직원들에게 받은 평균 점수는 5점 만점에 3.1점으로 아래 그림처럼 종모양의 분포를 보인다.

대부분의 조직들은 사람들이 왜 우리 회사에 입사하고, (떠나지 않고) 일하는지, 어떤 사람들이 조직내에서 성공하는지, 어떻게 하면 조직 내 리더쉽 역량을 키우고, 고객 서비스를 개선하고, 또 혁신을 가져올 수 있는지에 대한 해답을 찾기 위해 간절한 마음으로 데이터를 들여다 보기 시작하고 있고, 이들 문제들을 해결하는데 “제대로 된” People Analytics가 결정적인 정보를 제공할 수 있다.

2. People Analytics는 기하급수적으로 성장할 것이다. 지금은 성장의 문턱에 있다

딜로이트가 실시한 동일한 조사에 따르면 작년(2014) HR 부서 내의 People Analytics 수준(성숙도)이 의미있는 발전을 못하고 그냥 꿈틀하는 수준이었다.
이걸 근거로 People...

basic data type (기본적인 데이터 종류)

데이터 분석과 시각화의 맥락에서 중요한 데이터 유형은 네가지 (nominal, ordinal, interval, ratio)이다.

데이터의 유형과 유형의 성격을 정확히 이해하는 것은 최초 데이터 수집 시 어떤 유형으로 데이터를 수집하는 게 적절할지 결정하는 일에서부터 이후 분석이나 시각화 과정에서 데이터 유형에 따라 할 수 있는/없는 일들이 결정되므로 중요하다.

1. nominal data (명목 자료)

nominal data는 nominal(이름과 관련한)이란 수식어에서 알 수 있듯이 여러 categories(예, 청팀, 백팀, 홍팀)들 중 하나의 이름에 데이터를 분류할 수 있을 때 사용된다.
nominal data는 순서를 매길 수 없고 그냥 셀 수 있을 따름이다.
평균을 계산하는 것이 의미 없고 (백팀과 홍팀의 평균은 연분홍팀?) percent로는 표현해도 된다. (청팀: 33%, 백팀 33%, 홍팀 34%)
특별히, nominal data가 두 개의 범주 중 하나에 속하는 경우 (남자 vs. 여자) dichotomous data(이분 자료)라고 부른다.
nominal data를 categorical data (범주형 자료)라 부르기도 한다.

2. ordinal data (순서 자료)

데이터가 속하는 category들에 순서가 있는 경우 ordinal data라고 한다. (순서가 있는 명목 자료)
예를 들면 청팀이 이길 가능성에 대해 survey를 하는 경우 그 답변을 “5. 매우 높다. 4. 높다. 3. 중립, 2. 낮다. 1. 매우 낮다."로 디자인할 수 있다.
nominal data와 마찬가지로 counting을 하고 percent로 표현해도 좋다. (매우 높다: 33%, 높다: 19%…)
단, 평균 (위 예에서 청팀 이길 확률에 대한 답변 평균이...

기계학습에서 Random Forest(무작위의 숲)란 무엇인가? (ver 1.0)

“So what’s wrong if there happens to be one guy in the world who enjoys trying to understand you?”
― Haruki Murakami, Norwegian Wood

Random Forest는 소위 bagging approach 방식을 사용하는 대표적인 Machine Learning Algorithm이다.

Bagging이란 bias-variance trade off를 극복하기 위해 사용되는 방법이다.

Bias와 Variance는 학습 오류(Learning Error)를 구성하는 두 요소인데 Bias가 높으면 예측결과가 실제결과와 비교해서 부정확한 것이고 Variance가 높으면 예측결과가 어떤 dataset(training set)에서는 엄청 잘 맞다가 다른 dataset에서는 크게 안 맞고 이렇게 예측결과의 안정성이 떨어지는 것(낮은 stability or overfitting)경우이다.

Bias-Variance Trade Off란 기계학습 알고리즘에서 Bias를 줄이면 Variance가 높아지고 하듯이 두가지 Learning Error들이 일종의 Zero Sum 게임 양상을 보이는 경향인데 Bias-Variance를 극복하는 방법이 Bagging이라는 것이다.

Bagging은 Bootstrap Aggregation의 약자인데 주어진 데이터(training set)에서 랜덤하게 subset을 N번 sampling해서 (좀 더 정확하게는 observations과 features들을 random하게 sampling) N개의 예측모형을 만들어 개별 예측모형이 voting하는 방식으로 예측결과를 결정하여 Low Bias는 유지하고 High Variance는 줄이는 방법이다.

Random Forest는...

Aug 10, 2015

What I Talk About Data Viz. When I Talk About Data Viz.

데이터 시각화는 - 담백하게 정의하자면 - 숫자를 점, 선, 면(도형)을 활용해서 크기, 위치, 색상으로 표현하는 일이다.
데이터 시각화가 의미있는 근본적인 이유는 날것의 데이터/숫자보다 시각적 신호가 이해하고 기억하고 관련된 의사결정을 내리기 쉽기 때문이다. (사람의 뇌가 처리하는 시각 정보가 9Mb/sec 정도라고 하는데 사람의 두되는 시각적 정보를 잘 해석하도록 진화해 왔다. 한편, 엑셀을 볼 때는 cortisol이라는 스트레스 호르몬이 엄청 분비된다고…)

Medium

데이터 시각화는 의미를 전달하기 위한 도구이고, 그렇기 때문에, 매체이다. Data Visualization이 데이터의 의미를 전달하는 매체로서 기능하기 위해서는 아래 네가지 질문이 중요하다.

어떤 데이터를 가지고 있나?
데이터를 통해 알고 싶은 게 무엇인가?
알고 싶은 걸 잘 알기 위해 어떤 시각화 방법이 효과적인가?
알고 싶은 것이 잘 표현되었나? 시각화 방법이 적절했나?

Abstraction

또 다른 관점에서 데이터 시각화를 표현하자면 Dat Viz.는 현실의 추상화이다. 데이터 수집은 현실 세계를 sampling(추상화)하는 것이고, 데이터 시각화는 이런 추상화된 데이터에 대한 추가적인 추상화(abstraction)이다.
추상화의 과정에서 정보는 필연적으로 삭제/압축될 수밖에 없다. 사용자(audience)가 시각화에 사용된 시각적 신호(visual cues)를 해석할 수 없다면 시각화가 아무리 예쁘게 표현되었다 한들 실패한 Data Viz.이다.

Statistical Narrative

시각화는 종종 Storytelling의 새로운 형식으로 거론되기도 한다. 여기서 이야기라고 함은 전통적 서사라기보다는 통계적 이야기(statistical story)에 가깝겠다.
데이터 스토리텔링이...

Continue reading →

인사부서에 Predictive Analytics이 필요한 이유

회사의 모든 주요 기능들(Marketing, Finance, Product)이 데이터 기반 의사결정을 하고 있다. HR Function에도 데이터 기반 의사결정을 가능하게 하는 예측형 분석도구 도입이 왜 필요한지 적어본다.

예측형 지표들은 과거의 데이터에서 의미있는 패턴과 더이상 의미가 없는 패턴을 찾아주어 현재 운영하고 있는 HR policy/programs 들이 제대로 기능하고 있는지 알려준다.
예) 전통(Descriptive) HR Metric: 일인당 교육 비용 vs. Predictive HR Metric: 교육 투자비와 고성과자 퇴사율 간의 상관관계
더 이상 경험과 직관/추측이 아니라 데이터와 증거를 가지고 인재관련 의사결정을 할 수 있다.
예) 업무에서 높은 성과를 내는 직원과 그렇지 않은 직원의 차이는 어디에서 오는가? or 홍길동이 더 높은 성과를 내기 위해 필요한 교육은 무엇인가?
예측형 지표들은 앞으로 발생할 일들을 알려주어(alert) 미리 적절한 조치를 취할 수 있게 해준다.
예) Performance와 유의미한 관계를 갖는 Skill 중 향후 수요가 증가할 것으로 예상되는 Skill
전략적이라는 것은 본질적으로 앞을 내다보는(forward-looking) 행위이다. 미래의 기회와 위험에 대해 이해하고 준비하는 것은 HR이 전략적 부서가 되는 길이다.
예) 우리 조직 리더들의 공통된 특성(Leadership DNA)은 무엇인가?
예측 뿐만 아니라 해당 예측에 대한 설명(Why)을 제공해 준다면 문제의 근본 원인에 따른 의사결정과 HR program을 실시할 수 있다.
예) 작년 부서별 평균 퇴사율 vs. 퇴사율이 높은 고성과자들의 경우 돈이 아니라 교육이나 새로운 경험에 대한 노출 부족이 퇴사의 주된 이유 or offer를 받은 홍길동에게...

당신 보스가 금속 빤쓰를 입을 때

기계가 인간의 노동과 판단을 대신하는 것은 - 옳고 그름에 대한 판단을 잠시 유보한다면 - 기업의 효율성과 생산성 향상에 기여할 거라는 가정 하에서 피할 수 없는 일이다.

이전의 “First Machine Age"에서 기계가 상대적으로 단순하고 반복가능한, 즉 Computerization이 가능한 일들을 자동화하면서 인간의 노동과 (초보적인 수준의 논리적) 사고을 대체해 왔다면 우리 앞에 성큼 다가온 “Second Machine Age"에서는 기계가 사람의 판단을 대신할 것이다.

"The Second Machine Age”라는 책(아래 그림)에서는 두번째 기계의 시대를 아래처럼 두 단계로 나누는데

stage II-A: 사람이 자신들이 아는 것을 기계에게 학습시키는 단계
stage II-B: 기계가 스스로 학습하여 지식과 재능을 축적해가는 단계

A단계는 이미 이론이나 그 응용에서 높은 성숙도에 이르렀고 B단계도 최근 의미있는 결과들이(특히 deep learning 분야에서) 빠르게 나오고 있다.

그렇다면, 가까운 미래에 사람과 기계가 함께 일해야 한다면 최종 의사결정은 누가 내려야 할까? 혹은, 사람과 기계 중 누가 주요한 의사결정에 더 큰 영향을 미쳐야 할까? 정답은 "더 좋은 결정을 내릴 수 있는 것"이겠지만 실제는 그렇게 간단하지가 않아 보인다.
워튼대학의 2014년 실험결과를 살펴보자.

피실험자에게 과거 MBA에 합격한 학생들의 입학관련 서류를 보여주고 실제 학업 성과를 예측하도록 요청했다. 피실험자들은 본인들의 예측이 맞으면 금전적 보상을 받기로 하였고 자신이 직접 예측(판단)을 하든지 아니면 알고리즘이 내린 예측결과를 따를 수 있었다.
해당 실험에서 피실험자들은 알고리즘이 사람보다 더 정확하게 학업 성과를 예측한다는 사실 여부와 관계없이 대부분 본인의...

Moneyball for Harvard Admissions

Steve Schwarzman이라는 사모투자로 억만장자가 된, 그리고 최근 예일 대학에 1600억 정도 기부하기로 하신 분이 1969년 하바드 대학 입학에 거절당했던 일이 알려진 걸 계기로 하바드 대학에서 최근 졸업 후 돈을 어마어마하게 번 (특히 금융 쪽에서) 졸업생들 데이터를 분석했더니 아래 세가지 자질이 발견되었다고 한다.

self-importance: 통상 학교나 회사에서 사람을 선발할 때 자부심/자긍심은 거만함으로 해석되고 선발에 부정적 영향을 미치는데 실제 권위에 도전하는 (혹은 자기보다 높지 않은 권위는 인정하지 않는) 태도는 큰 부자가 되는 것과 매우 높은 상관관계를 보였음. 이들은 보스(교장선생님/학교)가 당면한 문제를 발견하고 해결하기 위해 교장실로 직접 찾아가 본인 스스로가 “보스"가 되는 일을 마다하지 않는데 지금까지 이런 자질을 보이는 학생들은 "성가시고 불평많은(nuisance or weenie)” 존재로 치부되어 왔다고.
an extreme need for external validation: 우수한 성적에 대한 비전통적인 방식의 검증이 필요하다는 것인데…고등학교에서 열심히 공부해서 우수한 성적을 낸 학생은 대학에서도 공부 열심히 해서 노벨상 내지 퓰리처상 등을 받을 수는 있어도 어마어마한 돈을 벌어 학교에 배포있게 기부할 사람이 되기는 힘들다는 것. 대안으로 추천서에 “지적 열정”, “학업에 몰입도가 높음” 같은 표현이 있는 전통적 우수생을 걸러냄으로서 높은 학업 성취를 특별한 이유(achieved high grades for the so-called wrong reasons; 결핍 같은 이유?)로 성취한 학생을 식별할 수 있다고.
The X factor: 말로 표현하기는 좀 힘든 - 그러나 보면 알 수 있는 - 그런 자질인데…표면적으로는 협동을...

HeartCount Blog

Mining People Data to Maximize Human Potential

Page 2

데이터로 은폐되었던 표절 찾기