🔥

EC2 にpysparkを導入する

に公開

EC2 にpysparkを導入する

必要なことだけまとめたらかなり短くなった

0.前提条件

t3.large以上のEC2を起動していること(t3.microだと導入時にフリーズ)

1.pipを入れる

EC2起動時点では、pythonは入っているけど、pipiが入ってないのでインストール

sudo yum install -y python3-pip

2.pip経由でpysparkをいれる

Java導入からあれこれやらないといけないと思ってが、pysparkインストール時点で、一部を除いて必要なものをインストールしてくれるらしい
この問、t3.microで行ったらメモリ不足かなにか原因でフリーズしたので、ちょっとだけ大きいインスタンスを起動

pip3 install pyspark

3.しっかりはいってるか確認する

pyspark --version
>JAVA_HOME is not set. Would you like to install JDK 17 and set JAVA_HOME? (Y/N)

pysparkは入ってるけど、JAVA関係のインストールとセッティングができてないらしい。
YESを選んでよしなにやってもらおう。

Y
>PermissionError: [Errno 13] Permission denied: '/home/ec2-user/.jdk/jdk-17.0.16+8/legal/jdk.internal.le/jline.md'

権限不足らしい。だるい。
だが、本来sudoコマンドで行う作業なのでPermissionエラーがおこることに違和感はない

4.Javaを入れ、パスの設定を行う

上で自動でやってくれなかったことを手動でやるだけ

sudo yum install -y java-17-openjdk java-17-openjdk-devel
export JAVA_HOME=/usr/lib/jvm/java-17-amazon-corretto
export PATH=JAVA_HOME/bin:PATH

5.再度入っているか確認する

pyspark --version

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 4.0.1
      /_/
                        
Using Scala version 2.13.16, OpenJDK 64-Bit Server VM, 17.0.16
Branch HEAD
Compiled by user runner on 2025-09-02T03:10:51Z
Revision 29434ea766b0fc3c3bf6eaadb43a8f931133649e
Url https://github.com/apache/spark
Type --help for more information.

インストールできたー
あとは好きなエディタでsparkセッションを立てて、お好きなように

Discussion