💻
臨床研究データ解析の記録(観察研究)①
研究の特徴
- 観察研究
- 薬剤AとBのアウトカムを比較
- 関心のあるアウトカムは多数
- サンプルサイズは100ぐらい
解析記録
5/16(3h)
- データ確認
- データセット仕様書作成
- 関心のあるアウトカム、交絡因子と考えられる変数を研究者とピックアップ
- このステップは大事
5/17(2h)
- データをRへ読み込み
- 罠の回避
データ読み込みの罠:欠測を示す語句が複数種類ある
回避方法
read_csv
のna
引数で指定する。
df00 <- read_csv("01_Data/hogehoge.csv",
na = c("", "NA", "/", "", "x", "とれない", "解析できず", "MA"))
5/19(8h)
- 解析計画書作成
- 解析用データセット作成
- シンプル部分
- 繰り返し部分の関数作成
5/20(10h)
- 解析用データセット作成
- 複雑部分
- 欠測データの確認
-
naniar
packageの使用 - おかしいデータがあれば、解析用データセット作成に戻る
- rmarkdown (html)に出力
-
- 背景情報の要約
-
gtsummary
packageの使用 - おかしいデータがあれば、解析用データセット作成に戻る
- rmarkdown (html)に出力
- 論文に直接用いるため、転記ミスがないように、wordファイル(docx)に出力
- と思ったけど、見づらいし、コピペも普通にできるので、html使用にする
-
5/23 (10h)
- 有効性評価項目の分布の確認
- 作図
- rmarkdown (html)に出力
- 論文に用いる図は、投稿雑誌規定に合わせて別に
ggsave
関数で出力- したがって、早めに投稿雑誌の当たりをつけていると良い
- 要約
- 時点ごとに縦持ちしているデータは
gtsummary
packageは使いづらい - 変数ごと、時点ごとに縦持ちさせて、
summarise
関数が良い
- 時点ごとに縦持ちしているデータは
- おかしいデータがあれば、解析用データセット作成に戻る
- 作図
5/24 (6h)
- 有効性評価項目の主解析
- 経時測定データなので、混合効果モデルを用いた
-
lme4
とemmeans
packageを使用- 時点ごとの群間比較をするために
emmeans
packageを使用- いろいろ考えたけど、これが使いやすいと思う
- 公式のVignettesの情報が最も充実している
- 使い慣れないため、時間を溶かす
- 時点ごとの群間比較をするために
5/25 (5h)
-
有効性評価項目の主解析
- モデル式の任意の変数を差し替える関数を作成
-
安全性評価項目の解析
- 集計のみ
一回目報告
- closeするか?
- ここまでかかった時間は42時間
5/26 (3h)
- 共同研究者の疑問にこたえるため、追加解析
二回目報告
- おそらくclose
- ここまでかかった時間は45時間
まとめ
- 本研究は、非常にスムーズにいった例だと思う
- それでも50時間程度かかりました
- データ解析は、ポチポチして1時間では終わりません!
Discussion