EC2 にpysparkを導入する
EC2 にpysparkを導入する
必要なことだけまとめたらかなり短くなった
0.前提条件
t3.large以上のEC2を起動していること(t3.microだと導入時にフリーズ)
1.pipを入れる
EC2起動時点では、pythonは入っているけど、pipiが入ってないのでインストール
sudo yum install -y python3-pip
2.pip経由でpysparkをいれる
Java導入からあれこれやらないといけないと思ってが、pysparkインストール時点で、一部を除いて必要なものをインストールしてくれるらしい
この問、t3.microで行ったらメモリ不足かなにか原因でフリーズしたので、ちょっとだけ大きいインスタンスを起動
pip3 install pyspark
3.しっかりはいってるか確認する
pyspark --version
>JAVA_HOME is not set. Would you like to install JDK 17 and set JAVA_HOME? (Y/N)
pysparkは入ってるけど、JAVA関係のインストールとセッティングができてないらしい。
YESを選んでよしなにやってもらおう。
Y
>PermissionError: [Errno 13] Permission denied: '/home/ec2-user/.jdk/jdk-17.0.16+8/legal/jdk.internal.le/jline.md'
権限不足らしい。だるい。
だが、本来sudoコマンドで行う作業なのでPermissionエラーがおこることに違和感はない
4.Javaを入れ、パスの設定を行う
上で自動でやってくれなかったことを手動でやるだけ
sudo yum install -y java-17-openjdk java-17-openjdk-devel
export JAVA_HOME=/usr/lib/jvm/java-17-amazon-corretto
export PATH=PATH JAVA_HOME/bin:
5.再度入っているか確認する
pyspark --version
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 4.0.1
/_/
Using Scala version 2.13.16, OpenJDK 64-Bit Server VM, 17.0.16
Branch HEAD
Compiled by user runner on 2025-09-02T03:10:51Z
Revision 29434ea766b0fc3c3bf6eaadb43a8f931133649e
Url https://github.com/apache/spark
Type --help for more information.
インストールできたー
あとは好きなエディタでsparkセッションを立てて、お好きなように
Discussion