入門 Rの使い方講座 〜環境構築・データの読み込み〜
はじめに
読者の対象
この記事では、Rをこれまで使ったことがなく、病院などで臨床研究をしていて統計解析をする方向けにRの使い方を説明します。Rのインストールから統計解析までの一連のフローを説明しますので、Rを使うイメージは沸きやすいかと思います(統計解析するまでに必要なデータハンドリングをメインに説明します)。まずは、統計解析までの最低限のフローを学んで、必要な知識はあとからどんどんつけていけばいいと思います。僕自身、Rの使い始めた頃はかなり苦労したので、Rを使い始めようとしている方の一助になれば幸いです。
「R」というプログラミング言語
「R」というプログラミング言語を聞いたことはあるでしょうか?Rとは統計解析向けのプログラミング言語であり、研究者の間ではよく使われています。他の統計解析ソフトと違い、プログラミング言語なので自分でコードを書いていく必要があります。私はRを使い始めてから1年ぐらい経ち、今では研究やインターンでよく使っています。(なので、まだまだ未熟者ですw)
なぜRなのか?
そもそも、なぜ統計ソフトの中でRを選んだかというと「Mac bookでも使える」というだけの理由です。元々EZR(Rの簡易版統計ソフト)を使おうと思っていたのですが、Mac bookではEZRと互換性が悪かったため、Rを使うことを決断しました。(あとは先輩がコードを書いている姿を見てかっこよかったっていうのもありますw)
Rを使うメリットとしては、「無料で使える」「操作性が高い」「汎用性が高い」です。SPSSやStataは使用するのにお金がかかりますが、Rは無料ソースです。操作性はEZR・Excelとの比較になりますが、変数処理の修正が簡単にできます。(言葉で伝えるより実践してみれば感じると思います。)また、Rは今も新しいパッケージがどんどんリリースされて、Rの用途の幅が広がり、使いやすさも向上しています。(パッケージについては後ほど説明します。)
デメリットは、学習コストがかかることぐらいですかね。
最初は戸惑うことが多かったですが、慣れると非常に使い勝手がよくRを使うことに挑戦してよかったなと思っています。
環境構築
R・Rstudioのインストール
まずはRとRstudioをインストールしましょう。R・Rstudioの違いって何?どっちもインストール必要あるの?と思う方もいると思います。Rはプログラミング言語で、Rstudioは総合開発環境(IDE:Integrated Development Environment)です。Rだけでも利用することはできますが、Rstudioももインストールしたほうが作業効率が上がります。料理に例えると、Rは「材料・材料器具」でRstudioは「キッチン」というイメージです。料理も何もない野原で行うより、キッチンを使用したほうが効率的にできますよね。それでは実際にRをインストールしていきましょう。
-
下記のサイトからRをインストール
https://cran.ism.ac.jp/ -
下記のサイトからRstudioをインストール
https://www.rstudio.com/products/rstudio/download/#download
インストールについて、より詳しく説明してくれているサイトをOSに分けて添付します。
▼Macの方向け
▼Windowsの方向け
プロジェクトの作成
インストールが完了したら、Rstudioを立ち上げましょう。(Rは立ち上げなくもRstudioのなかでRを使用することができます。)
Rstudioを立ち上げたら、以下の画面になると思います。
(私は環境設定を変更しているので、デフォルトの設定とは違います。)
Rstudio起動後の画面
次に、作業ディレクトリーとプロジェクトを作成します。
ここは、作業ディレクトリーとプロジェクトの説明は割愛して、画像で示しながらひとまず進めます。
(詳しく知りたい方は、以下の記事を読むといいかと思います。)
-
画面右上の「New Project...」をクリック
-
「New Directory」をクリック
-
ディレクトリーの名前を入力して、「Create Project」をクリック
-
Projectが作成できているか確認
-
スクリプトの作成
環境構築は以上になります。
これからデータハンドリングをしていきます。
データハンドリング
パッケージのインストール
それでは、データハンドリングに移ります。データハンドリングをする前に、パッケージをインストールします。パッケージは、料理で用途別に合わせた調理器具というイメージです。例えば、中華料理をするときには、中華料理をするために必要な調理器具を用意しますよね。Rのパッケージも同じで、データハンドリングに必要なパッケージを読み込む必要があります。データハンドリングに必要なパッケージは「tidyverse」になります。(tidyveseは、少し特殊で7つのコアパッケージから構成されています。)
パッケージのインストール方法は下記の通りです。
# install.packages("パッケージ名")
install.packages("tidyverse")
さらに、関数library()
を実行することで、データハンドリングが実現できます。library()は「これからパッケージを使いますよ!」という宣言をしているという意味なので、library()を実行しないとパッケージを使うことはできません。また、library()
はプロジェクト起動ごとに毎回実行する必要あります。
# library(パッケージ名)
library(tidyverse)
データの読み込み|readr::read_csv() or readr::read_()
研究データはcsvファイル、もしくはexcelファイルで保存していると思うので、パッケージをインストールをしたらまずはファイルを読み込みます。今回は、csvファイルを読み込むことを想定してやっていきます。ファイルの読み込みには、tidyverseの中のreadrを使用します。csvファイルはread_csv()
を使用します。
# data.frameの名前(任意)<-read_csv("読み込みscvファイルの名前")
df_example<-read_csv("data_example.csv")
参考書籍・参考サイト
データ整理はこのサイトで十分っていうぐらい豊富な情報がのっており説明がわかりやすいサイトです。ぼくもRを勉強し始めた時はこのサイトをとても参考にしました。
データハンドリングで有名な本ですね。サンプルデータを使用して関数の説明をしてくれているので、関数の使用イメージの解像度が上がると思います。
Discussion