basic data type (기본적인 데이터 종류)

데이터 분석과 시각화의 맥락에서 중요한 데이터 유형은 네가지 (nominal, ordinal, interval, ratio)이다.

스크린샷 2015-08-25 오전 10.50.42.png

데이터의 유형과 유형의 성격을 정확히 이해하는 것은 최초 데이터 수집 시 어떤 유형으로 데이터를 수집하는 게 적절할지 결정하는 일에서부터 이후 분석이나 시각화 과정에서 데이터 유형에 따라 할 수 있는/없는 일들이 결정되므로 중요하다.

1. nominal data (명목 자료)

2. ordinal data (순서 자료)

3. interval data (구간 자료)

4. ratio data (비율 자료)

5. discrete vs. continuous

위에 이야기한 "내려갈 수는 있어도 올라갈 수 없다"는 법칙은 비단 데이터 수집뿐만 아니라 분석이나 시각화에도 적용된다. (예를 들어 ratio 유형으로 수집할 수 있는 데이터를 ordinal 유형으로 수집하게 되면 나중에 평균을 계산한다든지 기타 보다 정교한 분석을 수행하기 어렵고 표현할 수 있는 방식 역시 나이 그룹별 히스토그램 정도로 제한되게 된다.)

-끝
(그림 인용: http://www.mymarketresearchmethods.com/types-of-data-nominal-ordinal-interval-ratio/)

 
82
Kudos
 
82
Kudos

Now read this

Text Mining in HR) 나한테는 있는데 너한테는 없는 것

텍스 분석 in HR 텍스트 분석을 하는 이유는 주어진 문서를 정량적으로 이해하는 것이다. HR 맥락에서 대표적인 텍스트 데이터 중 하나인 평가 의견을 중심으로 살펴보자. 평가의견은 S, A, B, C 등으로 직원의 성과에 따른 등급을 부여하면서 뭘 특별히 잘해서 S등급을 주었는지, 아니면 뭘 특별히 못해서 C등급을 주었는지에 대한 서술이다. 사람이 평가 의견을 일일이 다 읽어 보고 요약할 수도 있지만 주관이 개입될... Continue →