👻

生物統計家が参考にしているRパッケージたち

2023/01/02に公開約1,400字

すべてを司るもの

tidyverse package

いわずもがな。これがないと始まらない。
https://www.tidyverse.org/packages/

tidylog package

tidyverse関数群でデータセットの形を変形したり、くっつけたりするときに行数を確認することは重要です。dim()やstr()で小まめに確認する癖もつけたいですが、自動で行数等の出力するこのpackageはtidyverseと一緒に使いたいです。
https://github.com/elbersb/tidylog

データハンドリング

timetk

時間データ(date型)を扱うことは頻繁にありますが、filterしたり意外と手間です。それらのコーディングを簡単にします。データハンドリングにいれてますが、一般的な時系列分析もできそうです。
https://business-science.github.io/timetk/index.html

labelled package

データを変形するたびに、str()で構造を確認するのは非常に重要。
変形するたびにstr()を使う。
しかし、str()では情報が見づらい場合がある。
このパッケージのlook_for()を使うと、もっとわかりやすく構造を確認できる。
http://larmarange.github.io/labelled/index.html

arrow package

メモリにのらないようなデータを扱うときに。
癖があるので、arrowの思想を知るのが大事。
https://arrow.apache.org/docs/r/index.html

作図

patchwork package

ggplot2で作った図をくっつける。
https://patchwork.data-imaginist.com/index.html

統計解析

回帰分析

performance package

回帰モデルのチェックに使う。
https://easystats.github.io/performance/

欠測データ解析

visdat package

vis_dat()かvis_miss()で欠測の確認は忘れずに。
https://docs.ropensci.org/visdat/index.html

結果のまとめ

gtsummary package

表を作る。

  • Table 1(背景情報の要約)も
  • 回帰の結果のまとめも
  • 生存時間解析の結果まとめはうまくいかない(2022/10/21の時点で佐藤PCでは)

https://www.danieldsjoberg.com/gtsummary/index.html

その他

causaldata package

解析方法確認したり、教育にちょうどよいデータが欲しい。
因果推論に関する書籍のデータを集めたパッケージ。
https://github.com/NickCH-K/causaldata/tree/main/R

simstudy

シミュレーションデータ作りを容易にするパッケージです。
一見複雑そうに見えますが、考え方は直感的です。

https://kgoldfeld.github.io/simstudy/index.html

Discussion

ログインするとコメントできます