회귀분석의 한계와 다층모형의 필요성
구조방정식의 특징과 공부방법에 대한 소개에 이어 오늘은 회귀분석의 한계와 다층모형의 필요성에 대해서 간략히 정리해 보겠습니다.
우리가 석박사 학위 논문이나 학술지 논문을 쓰는 이유가 뭘까요? 아마도 우리가 관심 있는 현상에 대해 설명하고 자 하는게 아닐까요?
학문분야나 전공분야와 관계없이 많이 쓰는 양적연구방법은 회귀분석입니다.
회귀분석은 기초통계에서 다루는 기술통계, 추리통계에서의 가설검정논리에 대한 이해 그리고 독립표본 t-test나 상관분석에 대한 이해 등을 선수과목으로 하고 있습니다.
회귀분석에서는 우리가 관심 있는 종속변수와 독립변수를 필요로 합니다. 종속변수는 영향을 받는 변수, 독립변수는 일반적으로 영향을 주는 변수입니다. 예를 들면 전 국민의 관심사인 대학수학능력 점수가 종속변수라면 공부시간이나 사교육비 등이 독립변수가 될 것입니다.
제가 예로 든 수능성적을 설명하는 변수는 매우 많습니다. 학생변수로는 동기, 학습시간, 학습태도부터 그 학생의 가정변수로는 부모관계, 가계소득, 사교육비 지출 정도 등이 될 수 있습니다. 또한 과학고나 특목고를 다니는지, 어떤 선생님이 가르치는지도 그 영향변수로서 독립변수가 될 수 있을 것 같습니다.
지금도 회귀분석은 사회복지, 행정학, 경영학, 교육학 등 사회과학분야 뿐만 아니라 의료보건분야에서도 많이 쓰는 연구방법입니다. 구조방정식과 관련된 회귀분석의 한계는 경로분석처럼 간접관계 혹은 매개효과를 모형화 하기 어렵고, 확인적 요인분석을 통한 측정오차를 반영하기 어렵다고 말씀 드렸습니다.
오늘은 다층모형과 관련된 회귀분석의 한계를 간략히 소개해 보겠습니다. 그동안 회귀분석에서는 학생의 수능성적을 예측하는 회귀식에서 학생변수인 학생의 학습시간이나 사교육비와 조직변수인 재학 중인 학교의 유형이 특목고 인지 여부를 함께 하나의 회귀식에서 모형화 하였습니다. 문제는 과학고에 다니는 학생은 모두 같은 독립변수를 값을 같는다는 점입니다. 가장 단순하게 말하면 이것은 일종의 독립성 가정 위반입니다. 왜냐하면 회귀분석등 일반적인 양적연구에서는 정규성, 등분산성, 독립성 등의 가정을 요구합니다. 신뢰롭고 타당한 추청치를 위해서 말이죠.
그런데 다층모형을 적용하기 전 단계의 중다회귀분석에서는 조직변수와 개인변수를 구별해서 모형화 하지 못하는 한계가 있습니다. 이것이 왜 문제가 될 까요? 개인변수와 조직변수를 구별해야 하는 이유가 뭘까요? 다층모형을 적용하지 않는다면 우리는 두 가지 전통적인 접근이 가능합니다. 하나는 조직변수를 개인변수화 해서 모형화 하는 것이죠. 좀 전에 말씀 드린 것처럼 조직변수인 과학고 여부를 개인변수화 해서 (disaggregation) 모형화 하는 것이죠. 이 경우 조직의 특성을 반영하기 어렵고, 개인변수로 포함되므로 인해 표준오차를 부정확하게 추정하는 문제가 있습니다. 두 번째는 개인변수인 수능성적을 학교평균으로 만들고 개인 독립변수를 학교평균으로 변환하여 조직변수화 하여 분석하는 것입니다 (aggregation). 이 경우는 개인들의 특성을 모형화 하지 못하는 문제점이 있습니다.
다층모형은 개인변수와 조직변수를 구별해서 모형화 하는 장점이 있습니다. 이러한 다층모형이 필요한 예로 제가 들어보는 예는 미국 대통령 선거를 들기도 합니다. 예를 들면 개인 유권자수의 투표율로 결정한다면 힐러리가 대통령이 되었을 겁니다. 그런데 미국은 각 주의 독립성을 강조하므로 개인 투표율 보다는 각 주를 단위로 의사결정을 합니다. 그래서 힐러리 후보가 아니라 트럼프 후보가 대통령이 된 것 같습니다. 제가 여기서 말씀 드리고 싶은 것은 다층모형의 논리와 완벽하게 들어맞지 않을지는 몰라도, 개인을 분석단위로 하느냐 혹은 조직이나 지역을 분석단위로 하느냐에 따라 우리의 의사결정이나 추정값이 다를 수 있다는 점입니다.
그래서 일반적으로 회귀분석 대신 다층모형을 적용한다는 것은 이러한 분석단위의 문제를 타당하게 고려한 것으로 생각합니다. 우리가 많이 쓰는 구조방정식에서는 간접관계나 측정오차를 반영하는 면이 있지만, 다층모형에서 강조되는 분석단위를 고려하지는 못합니다.
또한 다층모형에서는 평균이나 기울기와 같은 개별모수의 값을 추정하는 것 외에, 개인과 조직 간의 분산구성성분의 양(variance component)도 연구자의 주된 관심사입니다.
제가 전공한 메타분석에서는 분석모형을 선택하는데 있어서 고정효과 모형과 랜덤효과 모형을 제시하고 있습니다. 이 랜덤효과 모형이 다층모형과 관련되는 논의입니다.
메타분석에 대해서 여러 가지 오해와 이해의 부족이 있는데, 대부분이 이 다층모형적 성격에 대한 충분한 고찰 및 이해가 부족한 데서 비롯된다고 저는 생각합니다.
다층모형은 전공에 따라 Hierarchical linear modeling, mixed effect model, random coefficient model 등으로 불리고 사용되고 있습니다.
보통 Raudenbush의 교재를 저는 기본서로 사용하는데요, 최근에 한국어로는 강상진 교수님의 교재가 새롭게 나와서 영어를 어려워 하는 우리들에게는 한글 기본서가 생긴 것은 다행이라고 생각합니다.
다층모형과 관련된 최근 논의는 다변량 다층모형, 구조방정식과 결합된 다층구조방정식, 제가 하는 메타분석과 관련된 최근 논의로는 다층 메타분석, 메타 구조방정식이 있습니다. 또한 최근에 논의되고 있는 진단검사 정확도 메타분석 등은 기본적으로 다층모형을 상정하고 있습니다. 메타분석에서 랜덤효과 모형에 대한 개념이 잘 잡히지 않는 분은 기본적인 다층모형의 논리를 먼저 학습해 보는 것도 추천 드립니다.
앞으로 다층모형에서의 조직효과성 연구, 성장모형, 메타분석 적용문제, 3수준 모형, 다변량 다층모형, HGLM, 다층구조방정식 등의 논의를 차례로 소개해 보도록 하겠습니다.
건강보험 데이터 등의 패널데이터를 분석하시는데 관심있는 분들은 구조방정식 모형과 함께 많이 쓰이는 연구방법이므로 일단 자기 전공에서 적용된 다층모형 페이퍼를 찾아 읽고 이해해 보면 좋겠습니다
댓글 없음:
댓글 쓰기