🌊

『SPY×FAMILY謎解き』のらくえンをOCRとPythonで解いてみた

に公開

やること

こんにちは、Suzuka22です。前回はスパイファミリーのたぬき暗号の記事を書きました。引き続き、今回も2020年9月に開催されたキャンペーンの「SPY x FAMILY謎解き」に出てくる謎解き問題を解いてみました。今回は謎解き問題の上級3の一部を光学文字認識で解いてみました

参考文献

光学文字認識とはテキストの画像を機械で読み取り可能なテキストに変換するプロセスのことを言います

https://aws.amazon.com/jp/what-is/ocr/#:~:text=光学文字認識 (OCR) は,カウントすることはできません。

以下は光学文字認識を使う際に参考した記事です。環境構築を行うときに参考してください

https://gammasoft.jp/blog/tesseract-ocr-install-on-windows/

https://qiita.com/ryuka0610/items/20fbea83fa2b193e2d84

https://openillumi.com/pytesseract-tesseract-not-found-error-solution-guide/

以下は画像処理で文字認識を行う際に参考した記事です

https://takaaki-hobby-blog.com/python/python_ocr/

https://takaaki-hobby-blog.com/python/get_word_position/

https://shikaku-mafia.com/opencv-line/

問題

こちらの問題です。問題としては新聞と広告の画像から何かのキーワードを抽出するとのことです。 (ソース:SPY×FAMILY SPECIAL MISSION)
フォージャー一家が写っている広告と新聞の画像があります。
 広告と新聞を照らし合わせて見る必要がありそうですね。ここで早速ヒントですが広告に写っているロイドに注目してください

image.png


image.png

答え

読者の皆さんは解けましたか??ちなみに筆者は解けませんでした(汗 
答えはらくえンです。なぜらくえンなのか解説していきます

解説

まず、広告のロイドの近くに写っているORDERという文字に注目します。このORDERという文字が存在する箇所を新聞から探します。すると縦並びの文章にO,R,D,Eという文字が存在することが分かります。そして、ORDERの順番で辿っていくと、矢印を一筆書きしたような筆跡が出力されます。出力された筆跡の矢印が指し示す延長線上の文字を読むと「らくえン(楽園)」という単語になります。この単語は意味が通る単語なので正解である確率が高そうです。そのため、答えは「らくえン(楽園)」です

image.png

Pythonで問題を解くための手順

問題の解き方が分かりました。ここからはPythonで問題を解いていきます。下記はPythonで問題を解く手順です

1. 光学文字認識でORDEという4文字を特定
2. 1で特定したそれぞれの4文字の座標値を縦並びの文字が写っている画像から取得
3. O→R→D→E→Rの順番で線を結ぶ

使用した画像

下記は使用した画像です
新聞から縦並びの文章のみを切り取った画像を使用しました

image.png

1.光学文字認識でORDEという4文字を特定

光学文字認識で縦並びの文章を抽出します。新聞から縦並びの文章が写っている箇所を切り取ります。

4文字を特定するソースコード

このソースコードを実行したら果たして文字が抽出されるでしょうか
(ドキドキ)

#システムの利用を宣言する
import sys
import os

#PyOCRを読み込む    
from PIL import Image
import pyocr

#OpenCVの利用を宣言する(画像に四角を書き込む際に使用)
import cv2

#Tesseractのインストール場所をOSに教える
tesseract_path = "C:\Program Files\Tesseract-OCR" 
if tesseract_path not in os.environ["PATH"].split(os.pathsep):
    os.environ["PATH"] += os.pathsep + tesseract_path

#OCRエンジンを取得する
tools = pyocr.get_available_tools()
if len(tools) == 0:
    print("OCRエンジンが指定されていません")
    sys.exit(1)
else:
    tool = tools[0]

#画像の読み込み
file_path = "ここに文字を抽出したい画像のパスを入力"
img = Image.open(file_path)
img2 = cv2.imread(file_path)

box_builder = pyocr.builders.WordBoxBuilder(tesseract_layout=6)
text_position = tool.image_to_string(img, lang="jpn", builder=box_builder)

# 取得した座標と文字を出力し、画像に枠を書き込む
order_dict = {"O": None, "R": None, "D": None, "E": None, "R": None}  # ORDER の順番
for res in text_position:
    if res.content in order_dict:
        print(res.content)

実行結果

D
R
O

文字が抽出されました! しかし、Eが抽出されていません。なぜでしょう
Eが抽出されていない原因を探るために全ての文字を抽出します

画像から全ての文字を抽出するソースコード

#システムの利用を宣言する
import sys
import os

#PyOCRを読み込む    
from PIL import Image
import pyocr

#OpenCVの利用を宣言する(画像に四角を書き込む際に使用)
import cv2

#Tesseractのインストール場所をOSに教える
tesseract_path = "C:\Program Files\Tesseract-OCR" 
if tesseract_path not in os.environ["PATH"].split(os.pathsep):
    os.environ["PATH"] += os.pathsep + tesseract_path

#OCRエンジンを取得する
tools = pyocr.get_available_tools()
if len(tools) == 0:
    print("OCRエンジンが指定されていません")
    sys.exit(1)
else:
    tool = tools[0]

#画像の読み込み
file_path = "ここに文字を抽出したい画像のパスを入力"
img = Image.open(file_path)
img2 = cv2.imread(file_path)

box_builder = pyocr.builders.WordBoxBuilder(tesseract_layout=6)
text_position = tool.image_to_string(img, lang="jpn", builder=box_builder)

print(" ".join([res.content for res in text_position]))



縦並びの文章の文字が縦に表示されました

P


どす











1













4



西







|
)」。、、
|






西


西
あい












ロト
、』



)
?


















|

l

















記紀

/
B
.

PE


いも













全車



/
ブリ


主計











レレ





中層





<


凍る
まめ








1









M

AND













?




導電
クソ
NN








安政
まな



使


ンジ




?















4


クリン





?










いま



j






(AN)





こっ










2





:
N



?
?




フン


プー


NNNA
|









よら























D







R




いい



?












\






うと
どれ



8







れい























いい






ある
ずる





















<



“も








いす


くに















両国






!


?




































いせ

西














生け
















よい



















西





引く















ずる

`
















きつ




うー




























N







その









滞る




O









ES



?







いで






国外


B









WP








1



















みい


S8Y

















?




^







過ぎ

`

お気


















?








8W





すぎ















?















文字が区切られて表示されています。しかし、表示された文字数が多すぎます。そこで、Eを検索します

ES

検索に引っ掛かりました! しかし、抽出された文字がEではなくてESになっています。はっきりとした原因は分かりませんが縦並びの文章が関係しているのかもしれません。仕方がないので1のソースコードの

order_dict = {"O": None, "R": None, "D": None, "E": None, "R": None} 

のEから

order_dict = {"O": None, "R": None, "D": None, "ES": None, "R": None}

ESに変更してみます。変更した場合は

D
R
O
ES

Sも表示されていますが特定したい文字の1つであるEが抽出されました!

1で特定したそれぞれの4文字の位置を新聞から取得

とりあえず、ORDEの4文字が抽出されました。次は新聞の画像からORDEの位置を取得します

新聞の画像から文字の位置を取得するソースコード

#システムの利用を宣言する
import sys
import os

#PyOCRを読み込む    
from PIL import Image
import pyocr

#OpenCVの利用を宣言する(画像に四角を書き込む際に使用)
import cv2

#Tesseractのインストール場所をOSに教える
tesseract_path = "C:\Program Files\Tesseract-OCR" 
if tesseract_path not in os.environ["PATH"].split(os.pathsep):
    os.environ["PATH"] += os.pathsep + tesseract_path

#OCRエンジンを取得する
tools = pyocr.get_available_tools()
if len(tools) == 0:
    print("OCRエンジンが指定されていません")
    sys.exit(1)
else:
    tool = tools[0]

#画像の読み込み
file_path = "C:/Users/homur/Downloads/mission.jpg"
img = Image.open(file_path)
img2 = cv2.imread(file_path)

box_builder = pyocr.builders.WordBoxBuilder(tesseract_layout=6)
text_position = tool.image_to_string(img, lang="jpn", builder=box_builder)

# 取得した座標と文字を出力し、画像に枠を書き込む
order_dict = {"O": None, "R": None, "D": None, "ES": None, "R": None}  # ORDER の順番
for res in text_position:
    #print(res.content)    #  画像から抽出した文字を表示
    if res.content in order_dict:
        print(res.position)
        order_dict[res.content] = res.position
        cv2.rectangle(img2, res.position[0], res.position[1], (0, 0, 255), 2)

実行結果

((1002, 496), (1052, 518))
((1328, 497), (1347, 517))
((935, 753), (962, 807))
((1331, 772), (1386, 792))

文字の座標値が出力されました。次は出力された座標値がそれぞれの文字と合致しているのかopencvを使って確認します

文字の座標値を可視化するソースコード

#システムの利用を宣言する
import sys
import os

#PyOCRを読み込む    
from PIL import Image
import pyocr

#OpenCVの利用を宣言する(画像に四角を書き込む際に使用)
import cv2

#Tesseractのインストール場所をOSに教える
tesseract_path = "C:\Program Files\Tesseract-OCR" 
if tesseract_path not in os.environ["PATH"].split(os.pathsep):
    os.environ["PATH"] += os.pathsep + tesseract_path

#OCRエンジンを取得する
tools = pyocr.get_available_tools()
if len(tools) == 0:
    print("OCRエンジンが指定されていません")
    sys.exit(1)
else:
    tool = tools[0]

#画像の読み込み
file_path = "文字を抽出したい画像のパスを入力"
img = Image.open(file_path)
img2 = cv2.imread(file_path)

box_builder = pyocr.builders.WordBoxBuilder(tesseract_layout=6)
text_position = tool.image_to_string(img, lang="jpn", builder=box_builder)

# 取得した座標と文字を出力し、画像に枠を書き込む
order_dict = {"O": None, "R": None, "D": None, "ES": None, "R": None}  # ORDER の順番
for res in text_position:
    #print(res.content)    #  画像から抽出した文字を表示
    if res.content in order_dict:
        print(res.position)
        order_dict[res.content] = res.position
        cv2.rectangle(img2, res.position[0], res.position[1], (0, 0, 255), 2)


#四角を書き込んだ画像を表示する
cv2.imshow("image",img2)
cv2.imwrite("出力させたい画像のパスを入力",img2)
cv2.waitKey(0)

座標値を可視化した結果

image.png

4文字の位置を特定することがほぼ出来ています。しかし、Oを囲んでいる赤枠の位置が少々ずれています。また、Dを囲む赤枠が右隣に存在する文字の更まで囲んでいます。縦並びの文章が写っている画像を使用しているのが影響しているのかもしれません

3 O→R→D→E→Rの順番で線を結ぶ

とりあえず、文字の座標値の件は大目に見ます。(え)
4文字の座標値を特定することが出来ているとしてORDERの順番で線を結んでいきます。
opencvを使います

特定した文字を線で結ぶソースコード

#システムの利用を宣言する
import sys
import os

#PyOCRを読み込む    
from PIL import Image
import pyocr

#OpenCVの利用を宣言する(画像に四角を書き込む際に使用)
import cv2

#Tesseractのインストール場所をOSに教える
tesseract_path = "C:\Program Files\Tesseract-OCR" 
if tesseract_path not in os.environ["PATH"].split(os.pathsep):
    os.environ["PATH"] += os.pathsep + tesseract_path

#OCRエンジンを取得する
tools = pyocr.get_available_tools()
if len(tools) == 0:
    print("OCRエンジンが指定されていません")
    sys.exit(1)
else:
    tool = tools[0]

#画像の読み込み
file_path = "文字を抽出したい画像のパスを入力"
img = Image.open(file_path)
img2 = cv2.imread(file_path)

box_builder = pyocr.builders.WordBoxBuilder(tesseract_layout=6)
text_position = tool.image_to_string(img, lang="jpn", builder=box_builder)

# 取得した座標と文字を出力し、画像に枠を書き込む
order_dict = {"O": None, "R": None, "D": None, "ES": None, "R": None}  # ORDER の順番
for res in text_position:
    #print(res.content)    #  画像から抽出した文字を表示
    if res.content in order_dict:
        print(res.position)
        order_dict[res.content] = res.position
        cv2.rectangle(img2, res.position[0], res.position[1], (0, 0, 255), 2)

# ORDERの順番で線を引く
order_keys = ["O", "R", "D", "ES", "R"]
prev_pos = None
for key in order_keys:
    if key in order_dict and order_dict[key] is not None:
        center_pos = ((order_dict[key][0][0] + order_dict[key][1][0]) // 2, 
                      (order_dict[key][0][1] + order_dict[key][1][1]) // 2)
        if prev_pos is not None:
            cv2.line(img2, prev_pos, center_pos, (255, 0, 0), 2)
        prev_pos = center_pos


#四角を書き込んだ画像を表示する
cv2.imshow("image",img2)
cv2.imwrite("出力させたい画像のパスを入力",img2)
cv2.waitKey(0)

特定した文字を線で結ぶソースコードの実行結果

image.png

矢印を一筆書きしたような結果が出力されました!!!!!矢印の延長線上の文字を読むとらくえンであることが確認できました

さいごに

今回は謎解き問題の上級3の問題の一部をPythonで解きました。本記事では新聞を画像として扱いました。そして、光学文字認識を使って画像から文字を抽出する手法で問題を解きました。新聞をテキストと扱ってOREDという4文字を探索する方法でも解けそうです。
 今後の課題としては光学文字認識の精度を向上させる、新聞をテキストと扱って解くことが挙げられます

ここまで記事を読んでいただきありがとうございました!!!!!!!!

[宣伝] 発信中のアカウントについて

※ウマ娘の声をフーリエ変換した記事や水栓の開閉判定をLineに通知する記事も書いています.suzuが私です.興味がある方はぜひご覧ください!

https://vigne-cla.com/31-1/#toc5

※ noteもやっています

https://note.com/madoka235

※ Qiitaもやっています
https://qiita.com/Suzuka22

アニメを題材にテック記事を書いています。
UnityやITなどの備忘録も発信しています。

ぜひフォローよろしくお願いします!

Discussion