🔖

音声認識可能な対話型AIを作成してみた(VOSK, GiNZA, python,チャットボット)

2023/01/14に公開

こんにちにゃんです。
水色桜（みずいろさくら）です。
今回はVOSKというライブラリを用いて声を文字起こしし、それに対して自然な返答を行うようなAIを作っていきたいと思います。

まず、それぞれのライブラリについて説明します。
VOSKはalphacepheiさんが開発した２０言語以上に対応した音声認識ツールキットです。言語モデルが約50MBと軽く、組み込みを容易に行うことが可能です。

VOSK Offline Speech Recognition API
https://alphacephei.com/vosk/

VOSKのインストールは

pip install vosk

で行うことができます。またalphacepheiさんのWebページから日本語のモデル（https://alphacephei.com/vosk/models/vosk-model-small-ja-0.22.zip
）をダウンロードすることで日本語で音声認識をすることができます。zipファイルは展開して「vosk_model」に名前を変更してください。そしてpythonのプログラムと同じディレクトリにおいてください。

GiNZAはリクルートさんと国立国語研究所さんの開発した自然言語処理ライブラリです。GiNZAはspaCyというライブラリを元に作られています。spaCyはExplosion社さんが提供している自然言語処理ライブラリで、アメリカなどでは人気のあるライブラリです。製品利用を念頭に尽きられているためとっても使い勝手が良いのですが、なんと２０１９年までは日本語には対応していませんでした。そこでリクルートさんと国立国語研究所さんが日本語の学習済みモデルを作成し、さらに導入を超簡略化までしてくれました❕

GiNZAの導入はコマンドプロンプトなどで

インストール

pip install ginza

で行うことができます。
導入は以上にして、ここからはコードを見ながら、AIの実装に移っていきたいと思います。プログラム全体は以下の通りです。

VOSK_GiNZA.py

# 必要なモジュールをインポート
import json
import vosk as vs
import pyaudio
import wave
import spacy
import tkinter as tk

time=5 # 録音する時間
samplerate=44100 # サンプリング周波数
fs=1024 # 
index=1 # オーディオ機器の内、マイクの番号を指定する

# tkinterを用いてGUIを作成
root = tk.Tk() # ウィンドウを作成
root.title(u'VOSKとGiNZAを用いたボット') # タイトルの定義
root.geometry('500x500') # ウィンドウサイズを定義
frame=tk.Frame(root,bg='Green yellow') # テキストボックスなどを載せるフレームを定義
frame.pack() # フレームを設置
sc=tk.Scrollbar(frame) # スクロールバーの定義
sc.pack(side='right',fill='y') # スクロールバーを設置
msgs=tk.Listbox(frame,width=70,height=25,x=0,y=0,yscrollcommand=sc.set,bg='azure',fg='black') # テキストボックスの定義
msgs.pack(side='left',fill='both',pady=20) # テキストボックスの設置

nlp = spacy.load('ja_ginza') #GiNZAのロード

def record(index,samplerate,fs,time):
    pa=pyaudio.PyAudio() # pyaudioを読み込み
    global data 
    data=[] # 音声データを格納する配列
    dt=1/samplerate # 
    format=pyaudio.paInt16 # 量子化ビット数。大きくするほど解像度が良くなる
    stream=pa.open(format=format,channels=1,rate=samplerate, # channelsは使用するマイクの本数
                   input=True,input_device_index=index,frames_per_buffer=fs) # 録音機器を準備し、録音を開始する
    for i in range(int((time/dt)/fs)):
        frame=stream.read(fs) # time/dt/fsごとに音声を録音 
        data.append(frame) # dataの末尾に録音したデータを追加

    stream.stop_stream() #録音の終了
    stream.close() # 録音機器を消す
    pa.terminate() # pyaudioの終了
    wav=wave.open('voice.wav','wb') # 音声を記録する音声ファイルを開く
    wav.setnchannels(index) # ファイルはどのマイクを使用したか設定
    wav.setsampwidth(pa.get_sample_size(format)) # ファイルの量子化ビット数を設定
    wav.setframerate(samplerate) # ファイルのサンプリング周波数を設定
    wav.writeframes(b"".join(data)) # データをまとめる（ビット形式に書き換え）
    wav.close() # 音声ファイルを閉じる
    return data

def vos():  
    vs.SetLogLevel(-1) #vosk関連のログが出ないように指定
    wav=wave.open('voice.wav','rb') #音声ファイルの読み込み
    model= vs.Model("vosk_model") #日本語モデルの読み込み
    rec = vs.KaldiRecognizer(model, samplerate) # 日本語モデルを用いて音声を解析
    rec.AcceptWaveform(b"".join(data)) # 音声データの読み込み
    rec.SetWords(True) # 文章のセット
    output=rec.Result() # 結果を出力
    js=json.loads(output) # 結果（jsonファイル）の読み込み
    txt=js['text'] # テキスト部分のみ抽出
    return txt
    
def ret():
   data=record(index,samplerate,fs,time)
   txt=vos()
   i=0
   msgs.insert('end','あなた：'+txt)
   doc=nlp(txt) #GiNZAで入力文章を解析
   with open('ginza_voice.txt',encoding='utf-8_sig') as m: #想定返答集のロード（使う場合はファイル名を変更してください）
     r=m.read().split('\n') #\nで一つ一つの文章が区切られているので、\nごとに分解して配列化
  
   float_list=[] #計算した類似度を保持する配列
   for i in range(len(r)):
     k = nlp(r[i]) #想定返答集のi番目の文章の解析
     float_list.append(doc.similarity(k)) #類似度を計算し、float_listに格納
     i=i+1 
     j=float_list.index(max(float_list)) #最も類似度の高かった文章のインデックスを取得
   if max(float_list)<0.7: #類似度が低すぎる場合（ここの条件（０．７以上）は適宜変えてください）
     txt='僕はAIだからこういう時どう返せばいいかわからないかな。' 
     msgs.insert('end','えいみ：'+txt)
     
   if max(float_list)>0.7: #類似度がある程度高い場合
     txt=r[j]
     msgs.insert('end','えいみ：'+txt)
     
#ボタンとテキストボックスの定義
btn=tk.Button(root,text='声から生成した文章を送信',font=('utf-8_sig',10),bg='cyan',command=ret)
btn.pack(side='top')
#画面の保持
root.mainloop()

まずtkinterを用いてGUIを作製していきます。

GUI.py

# tkinterを用いてGUIを作成
root = tk.Tk() # ウィンドウを作成
root.title(u'VOSKとGiNZAを用いたボット') # タイトルの定義
root.geometry('500x500') # ウィンドウサイズを定義
frame=tk.Frame(root,bg='Green yellow') # テキストボックスなどを載せるフレームを定義
frame.pack() # フレームを設置
sc=tk.Scrollbar(frame) # スクロールバーの定義
sc.pack(side='right',fill='y') # スクロールバーを設置
msgs=tk.Listbox(frame,width=70,height=25,x=0,y=0,yscrollcommand=sc.set,bg='azure',fg='black') # テキストボックスの定義
msgs.pack(side='left',fill='both',pady=20) # テキストボックスの設置

その後、音声を録音して、音声ファイルを出力する関数recordを定義します。

record.py

def record(index,samplerate,fs,time):
    pa=pyaudio.PyAudio() # pyaudioを読み込み
    global data 
    data=[] # 音声データを格納する配列
    dt=1/samplerate # 
    format=pyaudio.paInt16 # 量子化ビット数。大きくするほど解像度が良くなる
    stream=pa.open(format=format,channels=1,rate=samplerate, # channelsは使用するマイクの本数
                   input=True,input_device_index=index,frames_per_buffer=fs) # 録音機器を準備し、録音を開始する
    for i in range(int((time/dt)/fs)):
        frame=stream.read(fs) # time/dt/fsごとに音声を録音 
        data.append(frame) # dataの末尾に録音したデータを追加

    stream.stop_stream() #録音の終了
    stream.close() # 録音機器を消す
    pa.terminate() # pyaudioの終了
    wav=wave.open('voice.wav','wb') # 音声を記録する音声ファイルを開く
    wav.setnchannels(index) # ファイルはどのマイクを使用したか設定
    wav.setsampwidth(pa.get_sample_size(format)) # ファイルの量子化ビット数を設定
    wav.setframerate(samplerate) # ファイルのサンプリング周波数を設定
    wav.writeframes(b"".join(data)) # データをまとめる（ビット形式に書き換え）
    wav.close() # 音声ファイルを閉じる
    return data

色々複雑な変数の定義などを行っているので、もし使う場合はそのままにしておいてください。
次にVOSKを用いて文字起こしをするための関数vosを定義します。

vos.py

def vos():  
    vs.SetLogLevel(-1) #vosk関連のログが出ないように指定
    wav=wave.open('voice.wav','rb') #音声ファイルの読み込み
    model= vs.Model("vosk_model") #日本語モデルの読み込み
    rec = vs.KaldiRecognizer(model, samplerate) # 日本語モデルを用いて音声を解析
    rec.AcceptWaveform(b"".join(data)) # 音声データの読み込み
    rec.SetWords(True) # 文章のセット
    output=rec.Result() # 結果を出力
    js=json.loads(output) # 結果（jsonファイル）の読み込み
    txt=js['text'] # テキスト部分のみ抽出
    return txt

文字起こししたテキストを出力してくれます。
最後にGiNZAを用いて入力と最も類似度の高い返答を返す関数retを定義します。

ret.py

def ret():
   data=record(index,samplerate,fs,time)
   txt=vos()
   i=0
   msgs.insert('end','あなた：'+txt)
   doc=nlp(txt) #GiNZAで入力文章を解析
   with open('ginza_voice.txt',encoding='utf-8_sig') as m: #想定返答集のロード（使う場合はファイル名を変更してください）
     r=m.read().split('\n') #\nで一つ一つの文章が区切られているので、\nごとに分解して配列化
  
   float_list=[] #計算した類似度を保持する配列
   for i in range(len(r)):
     k = nlp(r[i]) #想定返答集のi番目の文章の解析
     float_list.append(doc.similarity(k)) #類似度を計算し、float_listに格納
     i=i+1 
     j=float_list.index(max(float_list)) #最も類似度の高かった文章のインデックスを取得
   if max(float_list)<0.7: #類似度が低すぎる場合（ここの条件（０．７以上）は適宜変えてください）
     txt='僕はAIだからこういう時どう返せばいいかわからないかな。' 
     msgs.insert('end','えいみ：'+txt)
     
   if max(float_list)>0.7: #類似度がある程度高い場合
     txt=r[j]
     msgs.insert('end','えいみ：'+txt)

以上が音声認識して文字起こしして、自然な返答を返すAIの概要です。
認識精度の問題で早口だとうまく認識してくれません。もし用いる場合はゆっくり、活舌よく話しかけてみてください。

では、ばいにゃん～

参考にさせていただいたもの
【Python】VOSKによるスピーカーからの音声出力のオフライン文字起こし

PythonのPyAudioで音声録音する簡単な方法

Discussion