데이터로 은폐되었던 표절 찾기

미국 내 주요 일간지에 십자낱말 퍼즐(crossword puzzle)을 가장 왕성하게 공급해온 Timothy Parker라는 사람이 뉴욕타임즈의 십자낱말 퍼즐을 왕성하게 표절해온 사실이 최근 밝혀진 적이 있다.

수십만명이 넘는 골수 퍼즐 매니아들이 십년이 넘도록 알아채지 못 한 표절 사실을 밝혀낸 것은 바로 Saul Pwanson이라는 소프트웨어 엔지니어였다. 아마추어 십자낱말 퍼즐 제작자이기도 한 Pwanson은 52,000개의 십자낱말 퍼즐 데이터베이스를 - 취미로 - 구축한 후 유사한 퍼즐을 찾는 프로그램을 개발하여 분석 결과를 공개하였다.


십자낱말 퍼즐은 아래의 네가지 요소로 구성된다.

아래 그림[실제 표절 사례 중 하나]에서 제일 긴 세개의 답변을 보면 모두 Exasperate(화나게 하다)라는 뜻의 관용구들이며 이 답변들이 해당 퍼즐의 테마가 된다.
crossword-finals-shady.jpg


Pwanson은 퍼즐 간 Grid의 유사도(동일한 위치의 사각형에 담긴 내용의 유사도)와 답변의 유사도(위치와 무관하게 전체 답변 갯수 중 동일한 답변의 수)를 계산하였다. 아래 그림처럼 “A라는 퍼즐과 B라는 퍼즐은 Grid의 유사도 96%, 총 76개의 답변 중 71개가 일치"와 같은 식으로 두 퍼즐간의 유사성을 계산한 것이다.
(실제 표절 여부를 판단하는데는 테마의 유사성이 핵심적인 판단 기준이 될 거라고 생각한다. theme = puzzle’s identity)
스크린샷 2016-03-10 오후 11.03.20.png


2003년부터 USA Today에 실린 십자낱말 퍼즐의 16%가 그 이전에 제작된 퍼즐들과 최소 25% 이상 유사한 것으로 계산되었다고 한다.
"데이터를 모아 놓으면 보고 싶지 않은 것도 보게 된다.” Pwanson과 함께 프로그램 개발에 참여한 친구의 말이다. (사람이 기계에 지는 것도 자꾸 보게 되고 말이다.)

“I guess that’s the nature of any data set. You might find things you’d rather not see.”

 
9
Kudos
 
9
Kudos

Now read this

Moneyball for Harvard Admissions

Steve Schwarzman이라는 사모투자로 억만장자가 된, 그리고 최근 예일 대학에 1600억 정도 기부하기로 하신 분이 1969년 하바드 대학 입학에 거절당했던 일이 알려진 걸 계기로 하바드 대학에서 최근 졸업 후 돈을 어마어마하게 번 (특히 금융 쪽에서) 졸업생들 데이터를 분석했더니 아래 세가지 자질이 발견되었다고 한다. self-importance: 통상 학교나 회사에서 사람을 선발할 때 자부심/자긍심은... Continue →