-
변수의 유형
구별이 중요한 변수의 유형으로는 다음 4가지가 있다.
- 명목변수
- 서열변수
- 등간변수
- 비율변수
1. 명목변수(normal variable)
명목변수는 속성들(attributes)을 구분하는 것이 그 목적으로, 가장 하위 변수에 해당한다. 개념을 통째로 외우는 것이 아니라 예시를 통해서 이 변수 자체에 대해 이해하고 넘어가는 것이 좋겠다. 다음 예시가 명목변수에 해당한다.
[예] 행정구역(동구/서구/남구/북구 등), 성별(남/여), 기저질환(당뇨/고혈압 등)
2. 서열변수(ordinal variable)
서열변수는 변수 그 자체에 이미 순서나 서열이 정해진 변수에 해당한다. 명복변수보다는 변수 안에 내재된 차이가 있으나 등간격(equal interval)은 존재하지 않는다.
[예] 메달(금/은/동), 성적(A/B/C/D/F)
3. 등간변수(interval variable)
등간변수는 측정 대상의 순서와 측정 대상 간의 간격을 알 수 있는 변수에 해당한다. 등간변수에는 등간격(equal interval)이 존재한다. 등간변수 중에 "0"이라는 값이 있다면, 절대적이고 실질적인 0의 값은 아니라 인위적인 값에 해당한다.
예를 들어보자면, IQ 테스트의 결괏값이 0이라고 하더라도 측정자의 IQ가 실제로 0이라고 할 수 없고, 온도계의 온도가 0도를 나타낸다고 해도 온도가 없다고는 말할 수 없다. 대표적인 등간변수의 예로 온도계의 온도를 제시하는 편이다. 또한, 태양력의 0년은 인간이 세운 임의적인 기준으로서 밑에서 말할, 비율변수의 절대영점(absolute zero)에는 해당하지 않는다.
4. 비율변수(ratio variable)
비율변수는 등간변수와 철저히 구분해야 한다. 비율변수는 등간변수가 가지고 있는 "0"의 값이 절대적인 0의 값을 가지고 있는 변수이다. 다시 말해서, 절대영점(absolute zero)을 가지는 변수로 "가장 파워풀한 변수"라고 말할 수 있다.
예를 들자면, 무게가 0일 때는 실제로 무게가 없는 것이고 소득이 0이면 정말 실제 소득이 없다는 것을 아는 것과 같이 절대적인 값의 0을 나타내는 변수가 곧 비율변수라고 할 수 있다. 추가로 예를 들자면 다음과 같은 것들이 있다.
[예] 연령, 무게, 시간, 거리, 소득, 교역량 등
명목변수 -> 서열변수 -> 등간변수 -> 비율변수의 순서로 고급통계를 적용하는 것이 가능해진다. 단, 사회과학 분야에서는 비율변수가 그리 많지 않기에 상당부분을 명목변수(normal variable)나 서열변수(ordinal varible)로 다루게 된다.
또한, 등간변수도 흔한 변수는 아니다. 따라서 서열변수를 등간변수로 간주하는 행위가 빈번하게 일어나는데, 측정 스케일에 포함된 여러 아이템 각각에 대한 응답자의 응답내용을 다음과 같이 측정하는 경우를 흔히 보았을 것이다.
ⓐ 정말 그렇다(SA) ⓑ 그렇다(A) ⓒ그냥 그렇다(N) ⓓ 그렇지 않다(DA) ⓔ 전혀 그렇지 않다(SD)
-> ⓐ부터 ⓔ까지의 변수들은 순서만 정해진 서열변수이나, 선택지 간의 동등한 간격(equal interval)이 있다고 가정하고 등간변수로 간주하여 측정한다.
Lower Level의 변수들(예를 들자면, 성별이나 사회 계층, 종교 등)에 고급 통계적 기법을 도입하는 것은 원천적인 해결이 불가능하기 때문에, 이러한 서열변수를 등간변수인 양 다루게 되고 이것이 유일무이한 대처법이자 해결법에 해당한다. 이와 같은 대처법을 사용하는 이유를 알고 사용하는 것과 모르고 사용하는 것 사이에는 큰 차이가 존재하므로, 유의해서 기억해두도록 하자.
범주형 변수와 연속형 변수
범주형 변수(categorical variable): 분류 그 자체가 핵심인 변수다. 단순화된 분류가 설득력이 있고 현실적이며, 다시 말해 단순화된 변수라고 할 수 있다. 명목변수가 이에 해당하며, 성별/나이/인종 등이 있겠다.
연속형 변수(continuous variable): 범주와 범주 사이에 무한히 많은 범주들이 존재해서, 무한히 연속되는 변수다. 서열변수와 등간변수, 비율변수가 이에 해당한다. 온도/시간 등이 예가 될 수 있겠다.
변수를 사용하고, 변수를 구분하고자 하는 목적은 "분석"이다. 통계분석을 할 때는 다른 변수들을 설정하고 통제하는 것 또한 중요하지만, 분석하고자 하는 대상(분석단위)이 무엇인가에 대해서도 명확히 정의해야 한다.
분석단위(Unit of Analysis)
분석단위란 분석에 있어서 궁극적으로 언급하고 있는 대상이다. 분석단위로는 개인과 집단, 사회, 사회적 생성물 등이 있으며 하나씩 예를 들어보자.
1. 개인(individual)
교육수준이 높은 "사람"일수록 수입도 많다.
2. 집단(group)
직원들의 교육 수준이 전반적으로 높은 "회사"일수록 급여 수준도 상대적으로 높다.
3. 사회(society)
어떤 특성을 지니는 "국가"일수록 어떤 특성이 나타난다.
4. 사회적 생성물(social artifacts)
"SNS상의 좋아요 클릭"은 이러저러한 때에 많이 나타난다.
-> Group 및 Society가 사회과학적 분석단위로 흔하지 않은 이유는 데이터를 얻어내기 어렵고 표본 사이즈 자체가 너무 작기 때문이다.
분석단위의 혼선(혼란)
분석단위의 혼선(혼란) 또는 오류라고 할 수 있는 대표적인 유형 2가지를 말하며 글을 정리해보자.
1. Ecological Fallacy: Group -> Individual
집단 수준의 측정치를 개인 수준으로 잘못 해석하는 경우에 해당한다.
[예] 직원들의 교육 수준이 전반적으로 높은 회사(집단)일수록 급여 수준도 상대적으로 높은 편이다.
-> 교육 수준이 높은 사람(개인)일수록 수입도 많다.
2. Individualistic Fallacy: Individual -> Group
개인 수준의 측정치를 집단 수준으로 잘못 해석하는 경우에 해당한다.
[예] 교육 수준이 높은 사람(개인)일수록 수입도 많다.
-> 직원들의 교육 수준이 전반적으로 높은 회사(집단)일수록 급여 수준도 상대적으로 높은 편이다.