Research Question
データに不等号が含まれている際のベターな対処法
・方向が単一の状況
; > 15, >= 20, ...
・方向が双方の状況
; > 15, < 25, ...
アウトカムが対象の変数であれば、LOD研究としてそこそこ行われている
対して、こういった変数を説明変数として扱う場合は何がベターなのか?
いくらか情報はあるので、欠測値とまではいかないデータ(ある種の打ち切りデータに近い)
最小化法の最適なオプション
最小化法はランダム割付を行う際に、特定の因子のバランスを保つ目的で行われる割付法の一種である。
片方の群に割付因子が偏ってしまった場合はその不均衡を打ち消す方向で、割付確率を適宜調整する。
調整の際には、
・不均衡の閾値
・調整後の割付確率
といったオプションをあらかじめ指定する必要がある。
割付確率を変えるという介入があるため、完全な無作為化とはいえないが、無作為化の体を保つためにも、不均衡の閾値や調整後の割付確率は人為的(恣意的)に設定することはナンセンスである。
無作為化上の観点、因子の分布のバランス度など、どの設定がベターなのかを探索する。
future)最小化法における因果推論
再発事象の解析
再発事象は何度も起こるイベントのことを指し、カウントデータとして扱うポアソン回帰がよく扱われる。
再発事象のイベント間の時間の違いに興味がある場合、生存時間の適用が考えられる。
患者1人1人を一つのクラスターと見なして、イベント間の時間をクラスター内の個体として扱うことで、個人差はフレイルティとして対処しながら、再発事象間の時間に対する解析が可能ではないだろうか。
事例も併せて、何か研究対象があればしてみたい。
メンデルランダム化法におけるリスクスコアの推定方法
たくさんの微弱な遺伝子を含めた暴露因子の予測モデルを考える。
候補となる遺伝子は一般的にものすごく数が多く、相対的に影響の大きなものでも絶対的な影響度は対して大きくない。
単変量ではそもそもが微弱なので、予測値が検出できず、複数の候補遺伝子を組み合わせて予測値を算出するのが一般的である。
臨床的な予測モデルとも状況が異なるので、どのようにして予測モデルを組むべきかは面白そう