LSTM

注意：ChatGPTの回答

ONNXのLSTMオペレーションをTensorFlowで実装する場合、TensorFlowのtf.keras.layers.LSTMレイヤーを使ってプログラムを書くことができます。以下は、ONNXのLSTMオペレーションの一般的なパラメータを使用して、TensorFlowでLSTMレイヤーを定義する方法の例です。

import tensorflow as tf

# ONNX LSTMパラメータ
input_size = ...  # 入力の次元数
hidden_size = ...  # 隠れ状態の次元数
num_layers = ...  # LSTM層の数
bidirectional = ...  # 双方向LSTMの場合はTrue、一方向LSTMの場合はFalse
dropout = ...  # ドロップアウト率（0から1の間の値）

# LSTM層の定義
lstm_layers = []
for i in range(num_layers):
    lstm_layer = tf.keras.layers.LSTM(
        units=hidden_size,
        return_sequences=True,  # すべてのタイムステップの出力を返す
        return_state=True,  # 隠れ状態とセル状態を返す
        go_backwards=bidirectional,  # 双方向LSTMの場合はTrue、一方向LSTMの場合はFalse
        dropout=dropout if i < num_layers - 1 else 0,  # 最後の層以外でドロップアウトを適用
        recurrent_dropout=0,  # リカレントドロップアウトは使用しない
        stateful=False,  # 状態の保持はしない
        implementation=2,  # 推奨される実装を選択
    )
    lstm_layers.append(lstm_layer)

# モデルの構築
inputs = tf.keras.Input(shape=(None, input_size))
x = inputs
for lstm_layer in lstm_layers:
    x, hidden_state, cell_state = lstm_layer(x)
outputs = x

model = tf.keras.Model(inputs=inputs, outputs=outputs)

このコードは、ONNXのLSTMオペレーションのパラメータをTensorFlowのtf.keras.layers.LSTMレイヤーに適用しています。ただし、実際のONNXモデルに応じて、パラメータの値を適切に設定する必要があります。また、双方向LSTMの場合は、tf.keras.layers.Bidirectionalを使用して、双方向性を適用できます。

PINTO

双方向LSTMを実装する場合、TensorFlowのtf.keras.layers.Bidirectionalレイヤーを使用して、通常のLSTMレイヤーに双方向性を適用します。以下は、双方向LSTMを使用したモデルの例です。

import tensorflow as tf

# ONNX LSTMパラメータ
input_size = ...  # 入力の次元数
hidden_size = ...  # 隠れ状態の次元数
num_layers = ...  # LSTM層の数
bidirectional = ...  # 双方向LSTMの場合はTrue、一方向LSTMの場合はFalse
dropout = ...  # ドロップアウト率（0から1の間の値）

# LSTM層の定義
lstm_layers = []
for i in range(num_layers):
    lstm_layer = tf.keras.layers.LSTM(
        units=hidden_size,
        return_sequences=True,  # すべてのタイムステップの出力を返す
        return_state=True,  # 隠れ状態とセル状態を返す
        go_backwards=False,  # 一方向LSTMの場合はFalseにする
        dropout=dropout if i < num_layers - 1 else 0,  # 最後の層以外でドロップアウトを適用
        recurrent_dropout=0,  # リカレントドロップアウトは使用しない
        stateful=False,  # 状態の保持はしない
        implementation=2,  # 推奨される実装を選択
    )
    if bidirectional:
        lstm_layer = tf.keras.layers.Bidirectional(lstm_layer)
    lstm_layers.append(lstm_layer)

# モデルの構築
inputs = tf.keras.Input(shape=(None, input_size))
x = inputs
for lstm_layer in lstm_layers:
    if bidirectional:
        x, forward_h, forward_c, backward_h, backward_c = lstm_layer(x)
    else:
        x, hidden_state, cell_state = lstm_layer(x)
outputs = x

model = tf.keras.Model(inputs=inputs, outputs=outputs)

このコードでは、tf.keras.layers.Bidirectionalレイヤーを使用して、通常のLSTMレイヤーに双方向性を適用しています。双方向LSTMの場合、bidirectional変数をTrueに設定してください。各LSTMレイヤーは、通常のLSTMレイヤーに加えて、逆方向の隠れ状態とセル状態も返します。この例では、それらの状態は使用されていませんが、必要に応じて活用できます。

PINTO

ONNXのLSTMオペレーションに記載されているパラメータに対応するTensorFlowのLSTMレイヤーの実装を行います。ただし、いくつかのパラメータはTensorFlowのLSTMレイヤーに直接的な対応がないため、完全な一致は得られません。この実装では、可能な限り近い機能を提供します。

import numpy as np
import tensorflow as tf

# ONNX LSTMパラメータ
input_size = ...  # 入力の次元数
hidden_size = ...  # 隠れ状態の次元数
num_layers = ...  # LSTM層の数
direction = ...  # 'forward', 'reverse', 'bidirectional'
dropout = ...  # ドロップアウト率（0から1の間の値）

# パラメータとして与えられる重みとバイアス
input_weights = ...  # W shape: (num_directions, 4*hidden_size, input_size)
recurrent_weights = ...  # R shape: (num_directions, 4*hidden_size, hidden_size)
input_biases = ...  # B shape: (num_directions, 8*hidden_size)

# クリップ値（オプショナル）
clip_threshold = ...  # if provided, gradient clipping should be applied

# 初期状態（オプショナル）
initial_h = ...  # initial hidden state, shape: (num_layers * num_directions, batch_size, hidden_size)
initial_c = ...  # initial cell state, shape: (num_layers * num_directions, batch_size, hidden_size)

# TensorFlowのLSTMオペレーションに変換
def create_lstm_layer(hidden_size, go_backwards, dropout):
    lstm_layer = tf.keras.layers.LSTM(
        units=hidden_size,
        return_sequences=True,
        return_state=True,
        go_backwards=go_backwards,
        dropout=dropout,
        recurrent_dropout=0,
        stateful=False,
        implementation=2,
    )
    return lstm_layer

lstm_layers = []

for i in range(num_layers):
    if direction == 'forward':
        lstm_layer = create_lstm_layer(hidden_size, go_backwards=False, dropout=dropout if i < num_layers - 1 else 0)
        lstm_layers.append(lstm_layer)
    elif direction == 'reverse':
        lstm_layer = create_lstm_layer(hidden_size, go_backwards=True, dropout=dropout if i < num_layers - 1 else 0)
        lstm_layers.append(lstm_layer)
    elif direction == 'bidirectional':
        forward_lstm = create_lstm_layer(hidden_size, go_backwards=False, dropout=dropout if i < num_layers - 1 else 0)
        reverse_lstm = create_lstm_layer(hidden_size, go_backwards=True, dropout=dropout if i < num_layers - 1 else 0)
        lstm_layers.append((forward_lstm, reverse_lstm))

# モデルの構築
inputs = tf.keras.Input(shape=(None, input_size))
x = inputs

for i, lstm_layer in enumerate(lstm_layers):
    if direction == 'bidirectional':
        forward_lstm, reverse_lstm = lstm_layer
        forward_x, forward_h, forward_c = forward_lstm(x)
        reverse_x, reverse_h, reverse_c = reverse_lstm(x)
        x = tf.keras.layers.Concatenate(axis=-1)([forward_x, reverse_x])
    else:
        x, hidden_state, cell_state = lstm_layer(x)

outputs = x
model = tf.keras.Model(inputs=inputs, outputs=outputs)

このコードでは、lstm_layersリストに格納されたLSTMレイヤー（または双方向LSTMの場合は、順方向と逆方向のLSTMレイヤーのペア）を使用して、モデルを構築しています。双方向LSTMの場合は、順方向と逆方向のLSTMレイヤーの出力を結合しています。

ただし、このコードは、入力データのシーケンス長に依存しない動的な計算を行うため、ONNXのLSTMオペレーションに記載されているいくつかのパラメータ（activation_alpha, activation_beta, activations, output_sequence）には対応していません。これらのパラメータは、カスタムレイヤーを作成することで実装することができますが、TensorFlowの標準LSTMレイヤーには直接対応する機能はありません。

PINTO

TensorFlowでONNXのLSTMオペレーションに記載されているパラメータ（activation_alpha, activation_beta, activations, output_sequence）に対応するカスタムLSTMレイヤーを作成するには、tf.keras.layers.Layerクラスを継承し、callメソッドをオーバーライドします。以下は、その実装例です。

import tensorflow as tf
from tensorflow.keras.layers import Layer


class CustomLSTMCell(tf.keras.layers.AbstractRNNCell):
    def __init__(self, hidden_size, activation_alpha, activation_beta, activations, **kwargs):
        super(CustomLSTMCell, self).__init__(**kwargs)
        self.hidden_size = hidden_size
        self.activation_alpha = activation_alpha
        self.activation_beta = activation_beta
        self.activations = activations

        self.dense_i = tf.keras.layers.Dense(4 * hidden_size, use_bias=False)
        self.dense_h = tf.keras.layers.Dense(4 * hidden_size)

    @property
    def state_size(self):
        return [self.hidden_size, self.hidden_size]

    def call(self, inputs, states):
        h_prev, c_prev = states

        gates = self.dense_i(inputs) + self.dense_h(h_prev)

        i, f, c_candidate, o = tf.split(gates, num_or_size_splits=4, axis=-1)

        # Custom activation functions
        i = self.activations[0](i * self.activation_alpha[0] + self.activation_beta[0])
        f = self.activations[1](f * self.activation_alpha[1] + self.activation_beta[1])
        c_candidate = self.activations[2](c_candidate * self.activation_alpha[2] + self.activation_beta[2])
        o = self.activations[3](o * self.activation_alpha[3] + self.activation_beta[3])

        c = f * c_prev + i * c_candidate
        h = o * tf.keras.activations.tanh(c)

        return h, [h, c]


class CustomLSTM(Layer):
    def __init__(self, hidden_size, activation_alpha, activation_beta, activations, return_sequences=False, **kwargs):
        super(CustomLSTM, self).__init__(**kwargs)
        self.hidden_size = hidden_size
        self.activation_alpha = activation_alpha
        self.activation_beta = activation_beta
        self.activations = activations
        self.return_sequences = return_sequences

        self.cell = CustomLSTMCell(hidden_size, activation_alpha, activation_beta, activations)
        self.rnn = tf.keras.layers.RNN(self.cell, return_sequences=return_sequences, return_state=True)

    def call(self, inputs, initial_state=None):
        outputs, h, c = self.rnn(inputs, initial_state=initial_state)

        if self.return_sequences:
            return outputs
        else:
            return h

この例では、CustomLSTMCellとCustomLSTMという2つのクラスを作成しています。CustomLSTMCellはLSTMの内部計算を担当し、CustomLSTMはシーケンス全体の処理を担当します。これにより、ONNXのLSTMオペレーションのパラメータに対応したカスタムLSTMレイヤーを作成できます。

PINTO

CustomLSTMレイヤーを使って、activation_alpha, activation_beta, activations, およびreturn_sequencesをサポートするLSTMモデルを作成できます。以下はその例です。

import numpy as np

# サンプルパラメータ
input_size = 10
hidden_size = 20
batch_size = 32
sequence_length = 50
activation_alpha = [1.0, 1.0, 1.0, 1.0]
activation_beta = [0.0, 0.0, 0.0, 0.0]
activations = [
    tf.keras.activations.sigmoid,
    tf.keras.activations.sigmoid,
    tf.keras.activations.tanh,
    tf.keras.activations.sigmoid,
]

# カスタムLSTMレイヤーを使用したモデルの構築
inputs = tf.keras.Input(shape=(sequence_length, input_size))
x = CustomLSTM(hidden_size, activation_alpha, activation_beta, activations, return_sequences=True)(inputs)
outputs = tf.keras.layers.Dense(input_size)(x)

model = tf.keras.Model(inputs=inputs, outputs=outputs)

# サンプル入力データ
sample_input = np.random.random((batch_size, sequence_length, input_size))

# モデルの実行
output = model(sample_input)

この例では、CustomLSTMレイヤーを使って、入力シーケンスに対する処理を実行しています。パラメータactivation_alpha、activation_beta、およびactivationsを変更することで、ONNXのLSTMオペレーションに記載されている異なる活性化関数やパラメータを使用したLSTMレイヤーを作成できます。return_sequencesをTrueに設定すると、すべてのタイムステップの出力が返されます。Falseに設定すると、最後のタイムステップの出力のみが返されます。

PINTO

ここに例を示します。ただし、この例は単純な1層のLSTMモデルに対してのみ機能します。複雑なモデルに対しては、適切に調整が必要です。

import onnx
import numpy as np
import tensorflow as tf
from onnx import numpy_helper

# ONNXモデルを読み込む
onnx_model = onnx.load('your_onnx_model.onnx')

# LSTMノードを取得
lstm_node = None
for node in onnx_model.graph.node:
    if node.op_type == 'LSTM':
        lstm_node = node
        break

# 必要なパラメータを抽出
input_size = lstm_node.attribute[0].ints[1]
hidden_size = lstm_node.attribute[0].ints[2]

# パラメータを格納するディクショナリ
params = {}
for init in onnx_model.graph.initializer:
    params[init.name] = numpy_helper.to_array(init)

# ONNXパラメータをTensorFlowのLSTMレイヤーに変換
W = params['W'].reshape(4, hidden_size, input_size)
R = params['R'].reshape(4, hidden_size, hidden_size)
B = params['B'].reshape(4, hidden_size)

W_i, W_o, W_f, W_c = np.split(W, 4, axis=0)
R_i, R_o, R_f, R_c = np.split(R, 4, axis=0)
B_i, B_o, B_f, B_c = np.split(B, 4, axis=0)

kernel = np.concatenate([W_i, W_f, W_c, W_o], axis=1).transpose(2, 0, 1).reshape(input_size, -1)
recurrent_kernel = np.concatenate([R_i, R_f, R_c, R_o], axis=1).transpose(2, 0, 1).reshape(hidden_size, -1)
bias = np.concatenate([B_i, B_f, B_c, B_o], axis=1)

# TensorFlowのLSTMレイヤーを作成
lstm_layer = tf.keras.layers.LSTM(hidden_size, kernel_initializer=tf.constant_initializer(kernel), recurrent_initializer=tf.constant_initializer(recurrent_kernel), bias_initializer=tf.constant_initializer(bias), return_sequences=True, return_state=True)

# TensorFlowのLSTMレイヤーに入力を適用
input_shape = (None, input_size)  # 入力の形状を指定
inputs = tf.keras.Input(shape=input_shape)
lstm_outputs, state_h, state_c = lstm_layer(inputs)

# 完全なモデルを作成
model = tf.keras.Model(inputs=inputs, outputs=[lstm_outputs, state_h, state_c])

# ここで、作成したTensorFlowモデルを使って推論を行うことができます。
# 例えば、ダミーの入力データを使用してモデルをテストすることができます。
dummy_input = np.random.randn(1, 10, input_size)  # shape: (batch_size, timesteps, input_size)
output, hidden_state, cell_state = model.predict(dummy_input)

# output, hidden_state, cell_stateは、それぞれTensorFlowのLSTMレイヤーから得られるアウトプットです。
# output: 各タイムステップのアウトプット
# hidden_state: 最後のタイムステップの隠れ状態
# cell_state: 最後のタイムステップのセル状態

print("Output:", output)
print("Hidden state:", hidden_state)
print("Cell state:", cell_state)

このコードは、ONNXのLSTMレイヤーをTensorFlowのLSTMレイヤーに変換し、推論を行うための例です。ダミー入力データを使用して、変換されたLSTMレイヤーが正常に動作するかどうかを確認できます。入力データを実際のデータに置き換えて、モデルを実際のタスクに適用できます。

PINTO

1層の双方向LSTMモデルを作成し、ONNXモデルの重みとバイアスを適用する方法を説明します。ここでは、以下の手順に従います。

TensorFlowで双方向LSTMモデルを作成する
ONNXモデルから重みとバイアスを抽出する
TensorFlowモデルに重みとバイアスを適用する

TensorFlowで双方向LSTMモデルを作成する

import tensorflow as tf
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Bidirectional, LSTM

# モデルのパラメータを定義
input_size = 10  # 入力の次元数
seq_length = 20  # 入力シーケンスの長さ
lstm_units = 50  # LSTMユニットの数

# モデルの構築
inputs = Input(shape=(seq_length, input_size))
lstm_layer = LSTM(lstm_units, return_sequences=True)
bidirectional_lstm = Bidirectional(lstm_layer)(inputs)
model = Model(inputs=inputs, outputs=bidirectional_lstm)

model.summary()

ONNXモデルから重みとバイアスを抽出する

import onnx
import numpy as np

# ONNXモデルを読み込む
onnx_model = onnx.load("your_onnx_model.onnx")

# 重みとバイアスを抽出する
weights = {}
for initializer in onnx_model.graph.initializer:
    name = initializer.name
    data = np.frombuffer(initializer.raw_data, dtype=np.float32).reshape(initializer.dims)
    weights[name] = data

TensorFlowモデルに重みとバイアスを適用する

# ONNXモデルからLSTMユニット数を取得する
lstm_node = None
for node in onnx_model.graph.node:
    if node.op_type == "LSTM":
        lstm_node = node
        break

lstm_units = None
for attr in lstm_node.attribute:
    if attr.name == "hidden_size":
        lstm_units = attr.i
        break

assert lstm_units is not None, "LSTM hidden_size not found"

# つまり、lstm_units は hidden_size と同義

# ONNXモデルからの重みとバイアスをTensorFlowモデルに適用する
lstm_forward = model.layers[2].forward_layer
lstm_backward = model.layers[2].backward_layer

# 順方向LSTMの重みとバイアスを設定
lstm_forward.set_weights([
    weights["lstm.W"],  # kernel (input)
    weights["lstm.R"],  # recurrent_kernel (hidden)
    weights["lstm.B"][:lstm_units * 4],  # bias (input and recurrent)
])

# 逆方向LSTMの重みとバイアスを設定
lstm_backward.set_weights([
    weights["lstm.W"],  # kernel (input)
    weights["lstm.R"],  # recurrent_kernel (hidden)
    weights["lstm.B"][lstm_units * 4:],  # bias (input and recurrent)
])

PINTO

tensorflow-onnx/tf2onnx/rewriter/bilstm_rewriter.py

    if names[-1] == "bias":
      bias_variable = tensor_dict[get_variable_name(node, cls.bias_var_name)]
      if len(node.inputs) >= 4:
        # onnx Wb[iofc], Rb[iofc]
        if is_bidirectional:
          # fw: index=0, bw: index=1
          b = tf.split(tensor_dict[node.inputs[3]], 2)[index]
        else:
          b = tensor_dict[node.inputs[3]]
        w_b, r_b = tf.split(tf.squeeze(b), 2)
        w_b_i, w_b_o, w_b_f, w_b_c = tf.split(w_b, 4)
        r_b_i, r_b_o, r_b_f, r_b_c = tf.split(r_b, 4)
        w_b = tf.transpose(tf.concat([w_b_i, w_b_c, w_b_f, w_b_o], 0))
        r_b = tf.transpose(tf.concat([r_b_i, r_b_c, r_b_f, r_b_o], 0))
        bias_variable.assign(tf.add(w_b, r_b))

      return bias_variable

PINTO

onnxruntimeのアクティベーションの実装

BIdirectional 以外 = 3つ、f, g, h
BIdirectional = 6つ、f, g, h x2

PINTO

activationsに f=Sigmoid, g=Tanh, h=Tanh が設定されている双方向LSTMの変換。

この場合、上記の説明で作成した双方向LSTMレイヤーはデフォルトで f=Sigmoid, g=Tanh, h=Tanh の活性化関数が適用されています。TensorFlowのLSTMでは、デフォルトの活性化関数が次のように設定されています。

f (忘却ゲート): Sigmoid
g (入力ゲート): Tanh
h (出力ゲート): Tanh

従って、上記の手順で作成された双方向LSTMレイヤーは、既に指定された活性化関数で動作しています。もし、異なる活性化関数を使用したい場合は、tf.keras.layers.LSTM の activation と recurrent_activation 引数を指定することで変更できます。しかし、指定された活性化関数が f=Sigmoid, g=Tanh, h=Tanh の場合、デフォルトの設定で問題ありません。

上記で説明した手順に従って双方向LSTMレイヤーを作成すれば、activationsに f=Sigmoid, g=Tanh, h=Tanh が設定されたONNXモデルをTensorFlowのLSTMへ転記できます。

PINTO

Clip と input_forget の実装サンプル

PINTO

Biasの前半は Weight 用、後半は Recurrent Kernel 用。なので倍増しているように見えて倍増していない。したがって、Keras の LSTM で計算する前に、Biasの前半部分と後半部分を合算しておく必要が有る。

PINTO

LSTM, RNN のサンプルONNXファイル