데이터로 은폐되었던 표절 찾기

미국 내 주요 일간지에 십자낱말 퍼즐(crossword puzzle)을 가장 왕성하게 공급해온 Timothy Parker라는 사람이 뉴욕타임즈의 십자낱말 퍼즐을 왕성하게 표절해온 사실이 최근 밝혀진 적이 있다.

수십만명이 넘는 골수 퍼즐 매니아들이 십년이 넘도록 알아채지 못 한 표절 사실을 밝혀낸 것은 바로 Saul Pwanson이라는 소프트웨어 엔지니어였다. 아마추어 십자낱말 퍼즐 제작자이기도 한 Pwanson은 52,000개의 십자낱말 퍼즐 데이터베이스를 - 취미로 - 구축한 후 유사한 퍼즐을 찾는 프로그램을 개발하여 분석 결과를 공개하였다.


십자낱말 퍼즐은 아래의 네가지 요소로 구성된다.

아래 그림[실제 표절 사례 중 하나]에서 제일 긴 세개의 답변을 보면 모두 Exasperate(화나게 하다)라는 뜻의 관용구들이며 이 답변들이 해당 퍼즐의 테마가 된다.
crossword-finals-shady.jpg


Pwanson은 퍼즐 간 Grid의 유사도(동일한 위치의 사각형에 담긴 내용의 유사도)와 답변의 유사도(위치와 무관하게 전체 답변 갯수 중 동일한 답변의 수)를 계산하였다. 아래 그림처럼 “A라는 퍼즐과 B라는 퍼즐은 Grid의 유사도 96%, 총 76개의 답변 중 71개가 일치"와 같은 식으로 두 퍼즐간의 유사성을 계산한 것이다.
(실제 표절 여부를 판단하는데는 테마의 유사성이 핵심적인 판단 기준이 될 거라고 생각한다. theme = puzzle’s identity)
스크린샷 2016-03-10 오후 11.03.20.png


2003년부터 USA Today에 실린 십자낱말 퍼즐의 16%가 그 이전에 제작된 퍼즐들과 최소 25% 이상 유사한 것으로 계산되었다고 한다.
"데이터를 모아 놓으면 보고 싶지 않은 것도 보게 된다.” Pwanson과 함께 프로그램 개발에 참여한 친구의 말이다. (사람이 기계에 지는 것도 자꾸 보게 되고 말이다.)

“I guess that’s the nature of any data set. You might find things you’d rather not see.”

 
9
Kudos
 
9
Kudos

Now read this

인사부서에 Predictive Analytics이 필요한 이유

회사의 모든 주요 기능들(Marketing, Finance, Product)이 데이터 기반 의사결정을 하고 있다. HR Function에도 데이터 기반 의사결정을 가능하게 하는 예측형 분석도구 도입이 왜 필요한지 적어본다. 예측형 지표들은 과거의 데이터에서 의미있는 패턴과 더이상 의미가 없는 패턴을 찾아주어 현재 운영하고 있는 HR policy/programs 들이 제대로 기능하고 있는지 알려준다. 예)... Continue →