Closed2022/05/26にクローズ2

とあるデータ解析の記録（観察研究）

データ解析

Shuntaro Sato（佐藤俊太朗）

研究の特徴

観察研究
薬剤AとBのアウトカムを比較
関心のあるアウトカムは多数
サンプルサイズは100ぐらい

Shuntaro Sato（佐藤俊太朗）

解析記録

5/16（3h）

データ確認
データセット仕様書作成
関心のあるアウトカム、交絡因子と考えられる変数を研究者とピックアップ
- このステップは大事

5/17（2h）

データをRへ読み込み
罠の回避

データ読み込みの罠：欠測を示す語句が複数種類ある

回避方法

read_csvのna引数で指定する。

df00 <- read_csv("01_Data/hogehoge.csv",
                     na = c("", "NA", "/", "", "x", "とれない", "解析できず", "MA"))

5/19（8h）

解析計画書作成
解析用データセット作成
- シンプル部分
- 繰り返し部分の関数作成

5/20（10h）

解析用データセット作成
- 複雑部分
欠測データの確認
- naniar packageの使用
- おかしいデータがあれば、解析用データセット作成に戻る
- rmarkdown (html)に出力

https://naniar.njtierney.com/index.html

背景情報の要約
- gtsummary packageの使用
- おかしいデータがあれば、解析用データセット作成に戻る
- rmarkdown (html)に出力
  - 論文に直接用いるため、転記ミスがないように、wordファイル(docx)に出力
  - と思ったけど、見づらいし、コピペも普通にできるので、html使用にする

5/23 (10h)

有効性評価項目の分布の確認
- 作図
  - rmarkdown (html)に出力
  - 論文に用いる図は、投稿雑誌規定に合わせて別にggsave関数で出力
    - したがって、早めに投稿雑誌の当たりをつけていると良い
- 要約
  - 時点ごとに縦持ちしているデータはgtsummarypackageは使いづらい
  - 変数ごと、時点ごとに縦持ちさせて、summarise関数が良い
- おかしいデータがあれば、解析用データセット作成に戻る

5/24 (6h)

有効性評価項目の主解析
- 経時測定データなので、混合効果モデルを用いた
- lme4とemmeanspackageを使用
  - 時点ごとの群間比較をするためにemmeans packageを使用
    - いろいろ考えたけど、これが使いやすいと思う
    - 公式のVignettesの情報が最も充実している
  - 使い慣れないため、時間を溶かす

5/25 (5h)

有効性評価項目の主解析
- モデル式の任意の変数を差し替える関数を作成
安全性評価項目の解析
- 集計のみ

一回目報告

closeするか？
ここまでかかった時間は42時間
非常にスムーズにいった例だと思う

5/26 (3h)

共同研究者の疑問にこたえるため、追加解析

二回目報告

おそらくclose
ここまでかかった時間は45時間

このスクラップは2022/05/26にクローズされました