ゴール
この記事では以下の質問に答えることを目的としています(誤りがないことを願いつつ)。これは、非差異的なアウトカム誤分類の下で、バイナリな曝露に対するRRを推定したい状況を想定しています:
- なぜ感度が不完全でも特異度が1であればバイアスを生じさせないのか?
- なぜ感度が1でも特異度が1未満の場合バイアスを生じさせるのか?
- なぜバイアスは帰無値に向かうのか?
- なぜ真のRRが大きいほどバイアスも大きくなるのか?
- なぜアウトカムが稀であるほどバイアスが大きくなるのか?
- 曝露別に層別化した陽性的中率(PPV)を用いてRRの補正式を導出するにはどうすればよいか?
- なぜ同様の状況において、RD(リスク差)、OR(オッズ比)、に対して完全な特異度だけではバイアスゼロを保証できないのか?
やること
記法の導入
まずは記法を整理します。以下の表は、アウトカムの誤分類がない場合の「真の2×2表」を示しています(Table 1の左側参照)。では、この「真の2×2表」の記法を使って、アウトカム誤分類がある場合の2×2表(右側)を表すことはできるでしょうか?答えは「はい」で、その方法はChubak et al. (2012)のAppendixのTable 4で明確に説明されています。ただし、ここではもう少し詳しく解説します。

これを行うために、真の2×2表の各セルを、Table 2に示されるようにアウトカム定義に基づいて2つの量に分割します。ここで、Y_{\text{true}} = 1は真のケースを意味し、Y_{\text{obs}} = 1 はアウトカム定義を満たす観察されたケースを意味し、X = 1は曝露されたことを意味します。
また、n(\cdot)は条件を満たすユニットの数を表す記号です。さらに、N, P, I_e, I_u はそれぞれ、全ユニット数、曝露されたユニットの割合、曝露群の発生率、非曝露群の発生率を示します。
Table 2の記法を利用し、さらに感度および特異度の概念を用いて、真のセルカウントと観察されたセルカウントを接続することができます。この関係をTable 3に示します。なお、Table 2と3の間で色分けを行うことで、対応関係がわかりやすくしています。この表現では、アウトカム誤分類は曝露に依存しない(非差異的)とみなされます。そのため、感度および特異度は曝露状態にかかわらず一定とします。


Table 3の記法を使用すると、観察されたリスク比は以下のように表されます:
RR_{\text{obs}} = \frac{a'}{a' + b'} \Big/ \frac{c'}{c' + d'} = \frac{(a \cdot \text{Sens} + b \cdot (1 - \text{Spec})) / (a + b)}{(c \cdot \text{Sens} + d \cdot (1 - \text{Spec})) / (c + d)} = \frac{a'/(a+b)}{c'/(c+d)}
ご覧のように、両方のリスクの分母(全体数)は変化しません。そのため、アウトカム誤分類によって導入されるバイアスを考える際には、分子のみを考えれば十分です。
さらに、真のリスク比 RR_{\text{true}} と観察されたリスク比 RR_{\text{obs}} の間の関係を次のように求めることができます:
\begin{equation}
RR_{\text{obs}} = RR_{\text{true}} \cdot \frac{1 + b \cdot (1 - \text{Spec}) / (a \cdot \text{Sens})}{1 + d \cdot (1 - \text{Spec}) / (c \cdot \text{Sens})}
\end{equation}
よって、アウトカム程度の感度と特異度が分かれば、RRを補正できます。同じような考え方でPPVを用いて補正する方法は後述します。
アウトカム定義の感度と特異度がRRに与えるバイアスの影響
Chubak et al. (2012) を初めて読んだときに最も驚いたのは、「曝露状態間で誤分類が非差異的である限り、不完全な感度は特異度が完全である場合には結果にバイアスを与えない」という点でした。 なぜそうなるのでしょうか? それは、特異度が(1)式で1に固定されると、(1 - \text{Spec}) が掛けられる項がゼロになり、感度に関連する項が相殺されるためです。対照的に、感度が完全であっても特異度が不完全な場合、b / a と d / c の項のため、バイアス乗数は1になりません。
次に、バイアスの方向性について考えてみましょう。このバイアスは双方向であるように見えますが、これらの論文では「この設定ではバイアスが通常帰無値(null)に向かう」と述べられています。(1)式を詳しく見てみましょう。真のRRに掛けられている項の1に足されている項は、b / a が d / cより大きければ1より大きくなり、 d / cの方がをb / aより大きければ1より小さくなります。すなわち、\frac{b/a}{d/c} = bc/ad = 1/ORという風に曝露群と非曝露群の間の真のオッズ比の逆数になっていますので、「真のオッズ比が1より大きい場合、バイアスは推定値を減少させる方向に働き、真のオッズ比が1より小さい場合には推定値を上昇させる方向に働く」ということを示せたと思います。
「真のRRがNullから離れているほどバイアスが大きくなる」と記載されていますが、これも同じよう理由に、真のオッズ比の逆数的な動きによってRRが1からより離れているほどバイアスが大きくなることを表現していると思います。ただし、これは非差異的なアウトカム誤分類とバイナリな曝露の設定の話で、連続的な曝露や差異的な誤分類が存在する場合、バイアスが帰無値から離れるケースもあります。詳細は、2つの論文を参照してください。
また、論文では「アウトカムがコモンであるほど特異度そのものが影響力を持たない」とも指摘されています。非常に高い発生率を持つアウトカムを考えてみましょう。この場合、I_e と I_u が非常に高くなり、(1)式のb / a および d / c の項が0に近づきます。これにより、(1)式における真のRR以外の全体的な乗数が1に近づくことを意味します。このことは、「アウトカムが一般的であるほど、観察されたRRのバイアスは小さくなる(レアアウトカムほどバイアスが大きくなる)」ことも示唆していると思います。
誤分類されたRRをPPVを用いて補正する方法
これまで、非差異的なアウトカム誤分類がRR推定値をどのように変化させるかを見てきました。このセクションでは、Newcomer et al. (2019) の式3を導出します。この式は、やや異なる記法で以下のように表されます:
RR_{\text{true}} = RR_{\text{obs}} \cdot \frac{\text{PPV}_1}{\text{PPV}_0}
ここで、\text{PPV}_1 は曝露群における陽性的中率を表し、\text{PPV}_0 は非曝露群における陽性的中率を表します(非差異的な感度の仮定の下)。 この式は、Brenner & Gefeller (1993) によって初めて示され、Newcomer et al. (2019) によると、Lash et al. (2011) の特殊なケースであるとされています。この補正式の問題点は、曝露群と非曝露群でPPVをそれぞれ別々に知る必要があることだと思います。典型的な検証研究を考えると、\text{PPV}_1 と \text{PPV}_0 に関する情報が得られない場合も多く、補正目的としての有用性が制限される可能性があります。
とはいえ、この式を導出します。RR_{\text{obs}}=\frac{a'/(a+b)}{c'/(c+d)}を先に得ているのでそれを用います:
\begin{align*}
RR_{\text{true}} &= \frac{a/(a+b)}{c/(c+d)} \\
&= \frac{a'/(a+b)}{c'/(c+d)} \cdot \frac{a/a'}{c/c'} \\
&= RR_{\text{obs}} \cdot \frac{\text{PPV}_1}{\text{PPV}_0}
\end{align*}
RD(リスク差)とOR(オッズ比)の考察
2つの論文によると、リスク差(RD)やオッズ比(OR)などの他の推定量は、特異度が完全であってもバイアスを受けるとされています。この点を確認してみましょう。
観察されたリスクと真のリスクの差は次のように表されます:
R_{\text{obs}} - R_{\text{true}} = \frac{a \cdot (\text{Sens} - 1) - b \cdot (1 - \text{Spec})}{a + b} - \frac{c \cdot (\text{Sens} - 1) - d \cdot (1 - \text{Spec})}{c + d}.
特異度が1の場合、この式は次のように簡略化され、ゼロにはなりません:
R_{\text{obs}} - R_{\text{true}} \Big|_{\text{Spec}=1} = \frac{a \cdot (\text{Sens} - 1)}{a + b} - \frac{c \cdot (\text{Sens} - 1)}{c + d}.
これにより、「RDは特異度が完全であってもバイアスを受ける」ことが確認されます。
ではOR(オッズ比)はどうでしょうか? 観察されたオッズ比は以下のように表されます:
OR_{\text{obs}} = \frac{(a \cdot \text{Sens} + b \cdot (1 - \text{Spec}))(c \cdot (1 - \text{Sens}) + d \cdot \text{Spec})}{(a \cdot (1 - \text{Sens}) + b \cdot \text{Spec})(c \cdot \text{Sens} + d \cdot (1 - \text{Spec}))}.
特異度が1の場合、この式は次のように簡略化されます:
OR_{\text{obs}} \Big|_{\text{Spec}=1} = \frac{a \cdot \text{Sens} \cdot (c \cdot (1 - \text{Sens}) + d)}{(a \cdot (1 - \text{Sens}) + b) \cdot c \cdot \text{Sens}}.
しかし、これは真のオッズ比とは異なります。
後記
2年前の正月に整理していた内容を見直し、英語でまとめていたのでchatGPTに日本語にしてもらった。書いていたことの一部は理解できず、昔の自分の方が賢かったのか、間違ったことを書いてあったのか、怪しい。
Discussion