메타분석, 의사가 되기 위해 골밀도 초음파보다 더 필요한 지식
메타분석의 4가지 필수 요소인 핵심질문, 통합추정치, 이질성, 질 평가를 중심으로
어느 날 친한 한의대생이 “메타분석 논문을 보니 골다공증에는 한약이 양약보다 골밀도를 더 증가 시킨다 하는데, 이제 골다공증에는 양약보다는 한약으로 치료해야지”라고 했다면 어떻게 대답할 것 인가? 내과 수업 시간에 골다공증하면 6가지 이상의 약을 배우고, 실습을 돌면서 수많은 골다공증 환자들이 ‘양약’을 건강보험 급여로 처방 받는 것을 눈으로 본 지라 쉽게 동의할 수 없을 것이다. 혹시나 해서 근거가 되는 논문을 살펴보았지만 최고의 의학적 근거라 불리는 메타분석 결과였고, 결론에도 그렇게 적혀있었다. 이에 의대생을 위하여 메타분석의 4가지 필수 요소인 핵심질문, 통합추정치, 이질성, 질 평가로 설명하고자 한다.
핵심질문 : 근거의 배율과 시야
체계적 고찰을 한 마디로 표현하면 고배율 현미경이라 할 수 있다. 그 이유는 체계적 고찰은 특정한 의학적인 질문을 생성하고 이 질문에 포함되는 논문들만을 모아서 보기 때문이다. 예를 들어 골다공증을 PubMed에서 검색하면 7만 건 이상의 논문이 나온다. 논문 1건 당 분석시간 10분만 잡아도 잠을 자지 않고 487일을 꼬박 분석해야 하기에 전체를 조사하기에는 기술상의 문제가 있다. 이에 체계적 고찰에는 주로 ‘누구에게(P)-특정 치료법으로(I)-해당 치료를 안 했을 때 비해서(C)-얼마나 효과(O)가 있는가?’는 특수한 질문(PICO)을 생성하여 범위(scope)를 줄이고 여기에 맞는 일부 논문들만 골라서 통합 분석한다.
통합추정치 : 가중평균 된 학점
메타분석은 결과 값을 통일해서 보는 체계적 고찰의 한 방법이다. 이 메타분석법은 한 마디로 표현하면 논문들의 결과를 가중 평균해서 본다고 할 수 있다. 예를 들어 대학교 교과 과목에 수업 일수가 큰 전공과목과 수업 일수가 작은 교양들이 있다고 하자. 어떤 학생 A가 공부를 잘 하는지 보기 위해서 과목학점에 따라 가중치를 매긴 총 학점을 보는 것과 같다. 따라서 메타분석은 샘플수가 많은 대규모 연구를 중심으로 평균값이 나오게 된다. 또한 가중 평균 값 역시 원칙적으로 기존 논문들의 연구 결과를 읽는 법과 큰 차이가 없다. 즉, 가중 평균치의 유의구간이 0이나 1을 포함하지 않아야 의미가 있다고 한다. 이 가중 평균은 흔히 메타분석을 나타내는 그림에서 제일 아래 다이아몬드 모양으로 표현되어 있다. 다이아몬드 양 끝이 신뢰구간을 의미하고 다이아몬드에 0이나 1을 포함하지 않아야 한다(그림1 참고).
▲ 그림1. 신뢰구간을 나타내는 그림(다이아몬드)이 0을 포함하지 않아 유의한 결과(왼쪽), 신뢰구간이 0을 포함하여 유의하지 않은 결과(오른쪽). (PMID: 23431336)
▲ 그림2. 값이 94%로 포함 연구들의 성격이 다름 (왼쪽), 값이 0%로 포함 연구들의 성격이 비슷함 (오른쪽). (PMID: 23431336)
이질성 :
사과, 배, 오이 vs 사과, 배, 귤
우리는 사과, 배 그리고 귤을 묶어서 과일이라고 할 수 있지만, 귤 대신 오이가 있는 경우는 이를 묶어서 과일이라고 말하기 힘들다. 하지만 체계적 고찰 연구 결과를 해석하거나 인용할 때 이런 일반화의 오류를 흔히 범한다. 이런 오류를 방지하기 위해 체계적 고찰로 묶어서 본 대상 논문들이 각각 말하고 있는 효과의 방향이 얼마나 비슷한지를 나타내는 정도를 통계적인 기법으로 측정해서 (i-square)이라는 값으로 표시한다. 통계량 의 기본 원리는 개별 논문의 값들의 표준편차를 구한 것이라 생각하면 된다. 값이 75~100%면 포함 논문들의 값이 서로 많이 다르다고 말하고, 40~75%는 중간 정도, 40%미만은 작은 정도로 다르다고 말하지만 엄밀한 기준은 아니다(그림 2).
질 평가 :
쓰레기는 모아 봐야 쓰레기
분석되는 개별 논문의 연구의 질이 좋지 않으면 이것을 모아서 본 체계적 고찰의 연구도 질이 나쁘다고 할 수 있다. 즉 쓰레기를 모으면 큰 쓰레기가 되듯이 질이 나쁜 연구가 포함되면 종합적인 결과도 신뢰 할 수 없다. 이는 ‘비뚤림 위험도(Risk of Bias)’라 하며 프로 주로 나타내며, 신호등 같이 빨간색은 비뚤림이 크며, 질이 나쁜 논문이 많다는 것이고 초록색이 많다는 것은 질이 좋은 논문이 많다는 것이며, 판단 할 수 없는 것은 노란색이다 (그림 3).
▲ 그림3. 포함되는 연구의 질을 나타내는 표. 초록색(질 좋은 논문)이 30%정도 밖에 되지 않는다. (PMID: 23431336)
풋사과, 상한 배 그리고 오이를
묶어서 과일이라 주장하는 격
글 서두의 사례에서 논쟁이 되었던 체계적 고찰 논문(PMID: 23431336)을 보자. 해당 논문에는 중국 약초(herb)를 대상으로 했기 때문에 이 중국 약초를 한약이라고 하기에는 무리가 있다. 또한 골다공증 제제와 중국 약초와 비교해 보았을 때 약초가 더 효과적이다 기술했지만, 가중평균치가 신뢰구간이 0을 포함하여 그 값이 통계적으로 의미가 있지는 않았다. 플라시보와 비교 했을 때 골밀도가 증가한다는 것 하나만 유효한데, 이 마저도 몸 전체가 아닌 오직 허리뼈로 본 골밀도만 의미 있게 증가시킨다고 할 수 있다. 하지만 허리뼈로 제한해서 본 골밀도에 대한 플라시보와 약초와 비교한 효과조차도 값이 94%으로 포함 연구들의 특성이 너무 다르다. 분석에 포함 된 좋은 질의 논문이 약 30% 정도로 나머지 70%는 나쁜 질이거나 그 상태를 알 수 없는 논문으로 구성되어 있다. 따라서 이 체계적 고찰 논문의 결과를 바탕으로 한약이 골다공증에 효과가 있다고 말하는 것은 풋사과, 상한 배 그리고 오이를 묶어서 과일이라 주장하는 격이 된다. 즉, 중국 약초를 골다공증에 쓰기에는 통계학적으로 무리가 있다.
메타분석의 의학적 사용은
의사에게, 약초는 한방에서
골밀도를 측정하는 방법은 이중방사선흡수(DXA)라는 장치만이 WHO 가이드라인에서 인정되고, 우리나라 보험기준은 특수 CT(QCT)도 일부 추가로 인정하며, 최근 한의학계에서 많은 관심을 보이는 초음파를 이용한 방법(QUS)은 전혀 인정되지 않는다. 이러한 개념이 없기에 위의 논문(PMID: 23431336)은 장치에 대한 언급은 전혀 되지 않는 것으로 보이고, 따라서 해석에 주의가 필요하다. 또한 골밀도의 치료제 표준은 2013년 이후부터 비스포스포네이트 제제(bisphosphate)인데, 약초와 비교한 약은 호르몬제제나 칼슘 등의 예전 치료제가 비교 대상이 되었다. 그리고 골밀도가 골다공증을 100% 대표하는 값은 아니다. 일반적으로 뼈의 상태를 골밀도가 70%기여하고 나머지 30%는 골질(bone-quality)이 결정한다. 따라서 골밀도만을 가지고 골다공증성 골절의 위험성 전체를 말하기에는 무리가 있다. 즉, 임상적으로 적용시켜 보았을 때 중국 약초를 골다공증에 쓰기에는 무리가 있다. 종합적으로 보면 의학적 근거를 과학적으로 분석하는 메타분석의 임상적 적용은 한방이 아닌 의사에 의해 수행되어야 할 것이다.
문선재 기자/중앙
<mgstoner@naver.com>