😽

Omeka Sの部分一致検索時のアクセントの区別

2024/06/17に公開

概要

Omeka Sの部分一致検索について、アクセントの区別について調査しましたので、その備忘録です。

例えば、「たこ」という文字列を含むアイテムが格納されている場合、「たこ」「タコ」「だこ」「ダコ」で同じ検索になります。

インストール時にデフォルトで設定される照合順序「utf8mb4_unicode_ci」が原因のようでした。

具体的には、この照合順序は「case-insensitive」（大文字小文字を区別しない）および「accent-insensitive」（アクセントを区別しない）となるため、「たこ」「タコ」「だこ」「ダコ」で同じ検索になるようでした。

もし上記を区別したい場合、「value」というテーブルの照合順序を「utf8mb4_bin」に設定するのが一つの方法のようです。

上記の設定を行った結果、例えば「ダコ」で検索すると0件になりました。

Omekaの利用にあたり、参考になりましたら幸いです。