💻

臨床研究データ解析の記録(観察研究)①

2022/05/26に公開

研究の特徴

  • 観察研究
  • 薬剤AとBのアウトカムを比較
  • 関心のあるアウトカムは多数
  • サンプルサイズは100ぐらい

解析記録

5/16(3h)

  • データ確認
  • データセット仕様書作成
  • 関心のあるアウトカム、交絡因子と考えられる変数を研究者とピックアップ
    • このステップは大事

5/17(2h)

  • データをRへ読み込み
  • 罠の回避

データ読み込みの罠:欠測を示す語句が複数種類ある

回避方法

read_csvna引数で指定する。

df00 <- read_csv("01_Data/hogehoge.csv",
                     na = c("", "NA", "/", "", "x", "とれない", "解析できず", "MA"))

5/19(8h)

  • 解析計画書作成
  • 解析用データセット作成
    • シンプル部分
    • 繰り返し部分の関数作成

https://zenn.dev/shuntarosato/articles/978c90061361eb

5/20(10h)

  • 解析用データセット作成
    • 複雑部分
  • 欠測データの確認
    • naniar packageの使用
    • おかしいデータがあれば、解析用データセット作成に戻る
    • rmarkdown (html)に出力

https://naniar.njtierney.com/index.html

https://nothing-without-poison.com/rtips2/

  • 背景情報の要約
    • gtsummary packageの使用
    • おかしいデータがあれば、解析用データセット作成に戻る
    • rmarkdown (html)に出力
      • 論文に直接用いるため、転記ミスがないように、wordファイル(docx)に出力
      • と思ったけど、見づらいし、コピペも普通にできるので、html使用にする

https://www.danieldsjoberg.com/gtsummary/index.html

5/23 (10h)

  • 有効性評価項目の分布の確認
    • 作図
      • rmarkdown (html)に出力
      • 論文に用いる図は、投稿雑誌規定に合わせて別にggsave関数で出力
        • したがって、早めに投稿雑誌の当たりをつけていると良い
    • 要約
      • 時点ごとに縦持ちしているデータはgtsummarypackageは使いづらい
      • 変数ごと、時点ごとに縦持ちさせて、summarise関数が良い
    • おかしいデータがあれば、解析用データセット作成に戻る

5/24 (6h)

  • 有効性評価項目の主解析
    • 経時測定データなので、混合効果モデルを用いた
    • lme4emmeanspackageを使用
      • 時点ごとの群間比較をするためにemmeans packageを使用
        • いろいろ考えたけど、これが使いやすいと思う
        • 公式のVignettesの情報が最も充実している
      • 使い慣れないため、時間を溶かす

https://cran.r-project.org/web/packages/emmeans/index.html

5/25 (5h)

  • 有効性評価項目の主解析

    • モデル式の任意の変数を差し替える関数を作成
  • 安全性評価項目の解析

    • 集計のみ

一回目報告

  • closeするか?
  • ここまでかかった時間は42時間

5/26 (3h)

  • 共同研究者の疑問にこたえるため、追加解析

二回目報告

  • おそらくclose
  • ここまでかかった時間は45時間

まとめ

  • 本研究は、非常にスムーズにいった例だと思う
  • それでも50時間程度かかりました
  • データ解析は、ポチポチして1時間では終わりません!

Discussion