😽

Omeka Sの部分一致検索時のアクセントの区別

2024/06/17に公開

概要

Omeka Sの部分一致検索について、アクセントの区別について調査しましたので、その備忘録です。

事象

例えば、「たこ」という文字列を含むアイテムが格納されている場合、「たこ」「タコ」「だこ」「ダコ」で同じ検索になります。

原因

インストール時にデフォルトで設定される照合順序「utf8mb4_unicode_ci」が原因のようでした。

具体的には、この照合順序は「case-insensitive」(大文字小文字を区別しない)および「accent-insensitive」(アクセントを区別しない)となるため、「たこ」「タコ」「だこ」「ダコ」で同じ検索になるようでした。

対策

もし上記を区別したい場合、「value」というテーブルの照合順序を「utf8mb4_bin」に設定するのが一つの方法のようです。

上記の設定を行った結果、例えば「ダコ」で検索すると0件になりました。

まとめ

Omekaの利用にあたり、参考になりましたら幸いです。

Discussion