데이터로 은폐되었던 표절 찾기

미국 내 주요 일간지에 십자낱말 퍼즐(crossword puzzle)을 가장 왕성하게 공급해온 Timothy Parker라는 사람이 뉴욕타임즈의 십자낱말 퍼즐을 왕성하게 표절해온 사실이 최근 밝혀진 적이 있다.

수십만명이 넘는 골수 퍼즐 매니아들이 십년이 넘도록 알아채지 못 한 표절 사실을 밝혀낸 것은 바로 Saul Pwanson이라는 소프트웨어 엔지니어였다. 아마추어 십자낱말 퍼즐 제작자이기도 한 Pwanson은 52,000개의 십자낱말 퍼즐 데이터베이스를 - 취미로 - 구축한 후 유사한 퍼즐을 찾는 프로그램을 개발하여 분석 결과를 공개하였다.


십자낱말 퍼즐은 아래의 네가지 요소로 구성된다.

아래 그림[실제 표절 사례 중 하나]에서 제일 긴 세개의 답변을 보면 모두 Exasperate(화나게 하다)라는 뜻의 관용구들이며 이 답변들이 해당 퍼즐의 테마가 된다.
crossword-finals-shady.jpg


Pwanson은 퍼즐 간 Grid의 유사도(동일한 위치의 사각형에 담긴 내용의 유사도)와 답변의 유사도(위치와 무관하게 전체 답변 갯수 중 동일한 답변의 수)를 계산하였다. 아래 그림처럼 “A라는 퍼즐과 B라는 퍼즐은 Grid의 유사도 96%, 총 76개의 답변 중 71개가 일치"와 같은 식으로 두 퍼즐간의 유사성을 계산한 것이다.
(실제 표절 여부를 판단하는데는 테마의 유사성이 핵심적인 판단 기준이 될 거라고 생각한다. theme = puzzle’s identity)
스크린샷 2016-03-10 오후 11.03.20.png


2003년부터 USA Today에 실린 십자낱말 퍼즐의 16%가 그 이전에 제작된 퍼즐들과 최소 25% 이상 유사한 것으로 계산되었다고 한다.
"데이터를 모아 놓으면 보고 싶지 않은 것도 보게 된다.” Pwanson과 함께 프로그램 개발에 참여한 친구의 말이다. (사람이 기계에 지는 것도 자꾸 보게 되고 말이다.)

“I guess that’s the nature of any data set. You might find things you’d rather not see.”

 
9
Kudos
 
9
Kudos

Now read this

Text Mining in HR) 나한테는 있는데 너한테는 없는 것

텍스 분석 in HR 텍스트 분석을 하는 이유는 주어진 문서를 정량적으로 이해하는 것이다. HR 맥락에서 대표적인 텍스트 데이터 중 하나인 평가 의견을 중심으로 살펴보자. 평가의견은 S, A, B, C 등으로 직원의 성과에 따른 등급을 부여하면서 뭘 특별히 잘해서 S등급을 주었는지, 아니면 뭘 특별히 못해서 C등급을 주었는지에 대한 서술이다. 사람이 평가 의견을 일일이 다 읽어 보고 요약할 수도 있지만 주관이 개입될... Continue →