basic data type (기본적인 데이터 종류)

데이터 분석과 시각화의 맥락에서 중요한 데이터 유형은 네가지 (nominal, ordinal, interval, ratio)이다.

스크린샷 2015-08-25 오전 10.50.42.png

데이터의 유형과 유형의 성격을 정확히 이해하는 것은 최초 데이터 수집 시 어떤 유형으로 데이터를 수집하는 게 적절할지 결정하는 일에서부터 이후 분석이나 시각화 과정에서 데이터 유형에 따라 할 수 있는/없는 일들이 결정되므로 중요하다.

1. nominal data (명목 자료)

2. ordinal data (순서 자료)

3. interval data (구간 자료)

4. ratio data (비율 자료)

5. discrete vs. continuous

위에 이야기한 "내려갈 수는 있어도 올라갈 수 없다"는 법칙은 비단 데이터 수집뿐만 아니라 분석이나 시각화에도 적용된다. (예를 들어 ratio 유형으로 수집할 수 있는 데이터를 ordinal 유형으로 수집하게 되면 나중에 평균을 계산한다든지 기타 보다 정교한 분석을 수행하기 어렵고 표현할 수 있는 방식 역시 나이 그룹별 히스토그램 정도로 제한되게 된다.)

-끝
(그림 인용: http://www.mymarketresearchmethods.com/types-of-data-nominal-ordinal-interval-ratio/)

 
79
Kudos
 
79
Kudos

Now read this

상관관계가 상관있냐?

데이터를 분석해서 모형을 만드는 이유는 특정 변수(성과, 매출, 위반 등)에 영향을 미치는 다른 변수들(학점, 나이, 소득 수준, 성격/태도)을 이해하여 현실에 개입(intervention)하기 위해서이다. Bias를 진실(현실)과 모형의 분석결과 사이의 차이라고 한다면 Bias는 아래 세가지 불확실성에서 기인한다. 분석에 사용된 데이터에서 비롯된 불확실성 (충분하지 않은 데이터, 잘못된 측정값, 기타... Continue →