メタ分析の統合手法と結果解釈におけるフレームワーク
メタ分析(meta-analysis)とは、これまでに報告されている同じ臨床課題に関する研究結果を、オッズ比などの一つの指標で統合する研究手法である。メタ分析のメリットとして、一つの研究では検出力不足で統計的有意差が出ないなど、曖昧であった結果が、複数の研究の統合解析により、対象症例数が増加して、より検出力が高まるということが挙げられる。
研究結果の統合においては、単に個々の研究で示されている統計量の平均値をとれば良いというわけではない。データの統合様式には大きく単純平均と加重平均があるが、メタ分析での統合は後者の加重平均を用いる。
単純平均はその名の通り、単純な平均である。たとえば(表1)のようなパターンを考えてみよう。研究①、研究②ともにプラセボに比べて薬剤Aであるイベントの相対比が低下している。しかし、両者を単純に平均してしまうと、相対比は逆に上昇してしまうのがわかるだろう。これがいわゆるシンプトンのパラドックス(Simpson's Paradox)と呼ばれるものだ。
(表1)シンプトンのパラドックス
メタ分析で採用される加重平均の方法としては、大きく、固定効果モデル (fixed-effect model)と変量効果モデル (random-effect model)の2種類がある。固定効果モデルは、研究の母集団が同一と仮定したモデルであり、各研究は均質的と考える。他方、変量効果モデルは研究の母集団が異なると仮定したモデルであり、各研究は異質的と考える。一般的には変量効果モデルの方が得られる95%信頼区間の幅が広くなり、有意差が出にくくなる。
しかし現実世界においては、各研究の母集団は均質的でも異質的でもないその中間と言えるだろう。研究間の母集団が全て一致するとは考えにくいし、かといってすべてが異質と言えるほどカオスでもないはずだ。各研究の母集団は全く同じではないけれど、でも全く異質なものでもない、こうしたフレームワークを可能にするのがベイジアンモデル(Bayesian model)である。
[ベイズ統計とは]
統計には大きく2つの考え方が存在する。ベイズ主義と頻度主義である。頻度主義とは古典的統計学とも言われ、フィッシャーらによる統計学者によって確立された。臨床研究における推定方法では、多くの場合この頻度主義に基づく95%信頼区間法が用いられる。これは同じ研究を100回行った場合、そのうち95回は推定範囲内の相対比をとるものとして解釈される。一つの臨床試験で示されたデータは数多くの研究が行われたうちの一つであると捉えるのが大きな特徴である。
他方、ベイズ統計は18世紀に英国のトーマス・ベイズ牧師によって提唱されたベイズの定理をもとに築かれている。ここでは難解な数学的説明を省くが、ベイズの定理とは以下の公式で示される。
P(H|D)=P(D|H)P(H)
・P(H):事前確率
・P(D|H):尤度
・P(H|D):事後確率
事前確率というものあらかじめを見積もり、それに尤度をかけることで事後確率を推定するという考え方である。こうしたフレームワークをメタ分析の統合手法に応用したのがベイジアンモデルと呼ばれる手法である。
[ベイジアンモデルによるネットワークメタ分析]
通常、メタ分析はE群、C群という2群比較の研究を統合解析する。例えば薬剤Aとプラセボというペアを比較するわけだ。こうした2群の比較をpairwise comparisonと呼ぶ。ところが近年、新規血糖降下薬や抗凝固薬など、既存の治療との非劣性を検討するような大規模臨床試験が増えてきた。比較対象が薬剤Aとプラセボだけではなく、薬剤Aと薬剤Bだったり、薬剤Aと薬剤Cだったりするわけだ。こうした研究をメタ分析に組み入れると、単純なpairwise comparisonでは太刀打ちできない。Aとプラセボ、AとB、AとCをそれぞれ統合してpairwise comparisonを繰り返していくと言うことも考えられなくもないが、あまりセンスの良い方法論とは言えないだろう。これは3群以上比較における多重検定の問題とどこか似ている。
3群以上の比較であるmultiple comparisonでも、ベイジアンモデルを用いるとメタ分析が可能になる。さらに、実際に直接比較していない薬剤同士の統合、例えば薬剤BとCの比較もベイジアンモデルを用いることで可能となる。こうしたmultiple comparisonの間接比較はネットワークメタ分析(network meta-analysis)と呼ばれる。
[Bayesian hierarchical meta-analysis]
ベイズ統計のフレームワークはmultiple comparisonだけでなく、pairwise comparisonでも有効だ。研究統合プロセスにおける基本的な考え方は以下の通りである。
①既存の臨床試験結果の統計量(事前確率)
②付け加えられた研究結果の統計量(尤度)
③最終的な結果の統計量(事後確率)
例えば、糖尿病患者の多枝血行再建戦略として、冠動脈バイパス術(CABG)のほうが経皮的冠動脈インターベンション(PCI)よりも良好な転帰が得られていることが知られていたが、2012年にFREEDOM試験[1]された。また、FREEDOMを含む8つの臨床試験の従来手法によるメタ分析[2]では、CABGがPCIよりも優れていることが示唆されている。
このテーマに関して従来メタ分析とBayesian hierarchical meta-analysisを比較交考察した論文が、Circ Cardiovasc Qual Outcomes誌[3]に掲載されている。詳細は脚注に示した原著論文を参照してほしいが、事前確率をどう見積もるかで、事後確率が変化していく様子が興味深い。
この論文では、FREEDOM以前に報告された8研究を事前推定値とし、FREEDOM試験の結果を尤度として、事後推定値を見積もったケースAと、懐疑的なケースとして、事前推定値を相対比で1.0と見積もったケースBが示されている。(図1)
既存の研究に関心を置いた場合、その事後確率は、CABG後の死亡はPCI後の死亡よりも29%〜52%低いという結果(黒線)になっている。他方、Bでは、最終的な見積もりはオッズ比0.82[95%信用区間BCI0.67~1.00]となっている。また、CABGの優越性について、より大きな無関心から始めると、従来のメタ分析で得られた結果と収束する傾向にあることが分かる(図2)
関心の相違が、事後推定値に差異をもたらしていくと言うのは、臨床試験の結果を解釈するうえで重要だ。既存の研究結果に対してどのような関心を払うか、介入効果とは独立して、その推定値が変化する可能性が示唆される。
[参考文献]
[1] N Engl J Med. 2012 Dec 20;367(25):2375-84
[2] Lancet Diabetes Endocrinol. 2013 Dec;1(4):317-28.
[3] Circ Cardiovasc Qual Outcomes. 2017 Aug;10(8). PMID: 28798016