2018년 4월 16일 월요일

메타분석에서 분석모형의 선택: 고정효과 모형, 랜덤효과 모형

분석모형의 선택: 고정효과 모형, 랜덤효과 모형
 
메타분석에서 연구들로부터 개별 효과크기를 계산한 후, 가중치를 부여하는 방법과 동질성 검정에 대하여 앞에서 소개하였습니다. 오늘은 전체효과크기를 계산하는데 있어서 고정효과모형, 랜덤효과 모형 등의 분석모형 선택에 대해 정리해 보겠습니다.
 
메타분석을 처음 공부하시는 분들에게 가장 어려운 주제가 이 부분 같습니다. 먼저 고정효과모형(fixed effect model)과 랜덤효과모형(random effects model)을 설명하기 전에 이질성에 대해 생각해 볼 필요가 있습니다. 이질성이란 연구들간 차이, 혹은 서로 다름을 말합니다. 기초통계에서 분산은 각 개별 측정치들이 평균과의 차이정도, 평균에서 떨어진 정도를 수량화 한 것입니다. 이러한 분산에 기초해서 연구자는 왜 그러한 차이가 나는지를 설명하려고 시도합니다.
 
메타분석은 개별연구들을 연구대상으로 한다는 점만 다르지 다른 양적연구와 똑같은 가설검정의 논리를 따릅니다. 따라서 메타분석에서 개별연구들로부터 추출된 연구들이 이질한지 동질한지 판단하고, 그에 따라 분석모형을 선택합니다. 일반적으로 메타분석은 개별연구들 보다 조금 더 포괄적인 주제에 대해서 연구하기 때문에 이질할 가능성이 있습니다. 메타분석 초기에 사과와 오렌지 문제(apple and orange problem)”라고 서로 다른 것을 종합하는 것에 대한 비판이 있었습니다. 지금도 체계적 문헌 고찰을 중심으로 다루는 교재에서는 많이 이질할 때의 대책 중에 하나로 메타분석을 하지 않는 것을 대안으로 제시하기도 합니다.
 
하지만, 이질성은 통계 분석을 하는 입장에서는 분석하고 조사해야 할 대상이며, 오히려 적극 분석하고 환영해야 할 대상으로 봅니다. 이질하지 않다면, 차이가 없다는 것이고, 그렇다면 분석 대상도 아니기 때문입니다. 메타분석에서 동질성 검정의 영가설은 모든 연구들이 동질할 것이다이고, 동질하다는 것의 의미는 모든 연구들이 같은 모집단을 공유하는지 여부라고 할 수 있습니다.
 
기존의 우리가 공부한 t-test, 분산분석, 회귀분석은 우리가 명시적으로 말하지는 않았지만, 고정효과모형에 기초한 것으로 봅니다. 여기서 이질하다는 것은 같은 모집단을 공유하지 않는다는 것을 말하고, 따라서 연구가 서로 다른 모집단으로부터 추출된 것으로 판단합니다. 고정효과 모형은 연구들이 동질하고, 공통의 효과가 존재한다고 봅니다. 그리고 표집오차 혹은 표본추출오차(sampling error)만을 고려합니다. 반대로 랜덤효과 모형은 연구들이 이질할 때, 공통의 효과크기가 존재하지 않으므로 효과의 분포를 추정하고, 표집오차에 부가하여 실질적 차이(true difference)를 모형화 합니다.
 
랜덤효과 모형의 이해를 위해서는 다층모형의 기본모형을 공부하면 도움이 됩니다. 메타분석은 기본적으로 연구가 2수준이고, 연구에 포함된 개체들이 1수준인 셈입니다. 메타분석에 대한 오해나 부정적 인식은 대부분 이 연구를 분석단위하는 것에서 시작되는 것 같습니다. 다른 연구자의 연구를 분석단위로 한다는 것이지, 메타분석 연구자가 연구 아이디어나 연구논리가 없어도 된다는 것은 아니기 때문입니다. 건강보험데이터, 교육종단연구, 사회복지 패널데이터를 이용해 여러 연구자가 자기 연구문제를 연구하듯이 메타분석 연구자는 개별연구자를이 개별 데이터를 수집해서 연구한 연구물을 하나의 데이터세트로 보고 연구한다고 보시면 좋겠습니다.
 
그래서 랜덤효과 모형에서는 연구간 이질성을 반영하므로, 일반적으로 개별연구들의 표본수의 차이에 의한 가중치가 완화되고, 신뢰구간의 폭이 증가합니다. 일반적으로 랜덤효과 모형으로 분석하는 것을 추천합니다. 왜냐하면, 이질할 때 고정효과 모형을 선택하는 것은 이질성을 반영하지 못한 부적절한 분석이지만, 동질할 때 랜덤효과 모형을 선택하는 것은 실질적 차이가 거의 제로에 가까우므로 랜덤효과 모형과 고정효과 모형의 분석 차이가 별로 없습니다. 잘못된 선택을 했을 때 별로 영향이 없다는 것입니다.
 
다만, 연구자가 주의할 것은 랜덤효과 모형은 연구간 이질성이라는 모수를 하나더 고려하는 것이므로 일반적으로 더 많은 표본수와 연구수가 필요합니다. 연구수가 적을 때는 랜덤효과 모형의 모수들을 부정확하게 추정할 수 있습니다. (참고로 보통 다층모형의 경우 30-30 룰을 적용합니다. 1수준 30개에 2수준 30개 정도의 표본을 필요로 합니다.) 메타분석의 경우 연구수가 적을 경우 고정효과 모형으로 분석하는 것을 고려해 보면 좋겠습니다. 고정효과 모형이 우리가 기존에 개별연구에서 수행했던 분산분석, 회귀분석이라고 생각하면 됩니다.
 
분석모형 선택을 위한 이질성을 판단할 때 보통 세 가지 방법을 생각해 볼 수 있습니다. 하나는 숲 그림(forest plot)을 통해 연구들이 공통의 효과크기를 갖는지 살펴봅니다. 둘째는 Q검정 통계량을 체크 합니다. 셋째는 I^2 값을 통해 판단합니다. Higgins (2003)이 제시한 I^2값은 보통 25%면 조금 이질, 50%면 중간 이질, 75%면 많이 이질하다고 판단합니다.
 
일반적으로 Q검정에만 의존하지 말고, 연구자가 연구들이 이질한지 내용적으로 임상적으로 판단하기를 추천합니다. 고정효과 모형과 랜덤효과 모형을 통해 전체 효과크기를 보고하고 해석하면 됩니다. 보통 전체효과크기는 어떤 특정한 임상적인 의미보다는 전체효과크기로 각 집단 간 차이를 보거나 회귀분석을 수행하기 전의 전체평균(grand mean)을 구한 것으로 보시면 좋을 것 같습니다.
 
 
더 읽기 자료
1. Borenstein et al (2009) Introduction to meta-analysis. WILEY
2. Cooper, H., Hedges, L.V. (2009) The handbook of research synthesis and meta-analysis 2nd. Russell Sage Foundation
3. Hedges, L., Olkin, I. (1985) Statistical methods for meta-analysis. Academic Press

댓글 없음:

댓글 쓰기

(온라인 강의 병행) 2022년 12월~ 2023년 2월 교육통계연구소 전체 특강 일정 및 연구모임 일정 (온라인 강의 FAQ 포함)

 *** 교육통계연구소 전체 특강 일정 및 신청 링크 https://blog.naver.com/9065031/221690496362 논문을 쓰고 지도하는 일은 매우 외롭고 힘든 과정입니다. 교육통계연구소에서는 매달 2주, 4주 화요일 저녁...