📚

【WCAG2.1の達成基準を咀嚼する】1.2.1: 音声のみ及び映像のみ (収録済)

2023/03/23に公開

アクセシビリティ

WCAG

アクセシビリティ

tech

これは何？

WCAG2.1のガイドライン中で示されている達成基準を、フロントエンドエンジニア視点でざっくりと噛み砕いてまとめたものです。
この記事では、達成基準 1.2.1 音声のみ及び映像のみ (収録済) について記載しています。

参考

「達成できている」と言える状態

収録済の音声しか含まないメディア及び収録済の映像しか含まないメディアは、次の事項を満たしている。ただし、その音声又は映像がメディアによるテキストの代替であって、メディアによる代替であることが明確にラベル付けされている場合は除く:

収録済の音声しか含まない

時間依存メディアに対する代替コンテンツによって、収録済の音声しか含まないコンテンツと同等の情報を提供している。

収録済の映像しか含まない

時間依存メディアに対する代替コンテンツ又は音声トラックによって、収録済の映像しか含まないコンテンツと同等の情報を提供している。

音声しか含まないコンテンツ or 映像しか含まないコンテンツの伝える情報は、すべての利用者が入手できる必要がある。
その手段としてテキストによる代替を用いる。テキストだと支援技術を通じて提供しやすいので、障害の有無に関係なく、コンテンツを利用できるようになる。
※ 音声情報がない映像に対しては、代替として音声による解説でもOK。

例外

ただし、その音声又は映像がメディアによるテキストの代替であって、メディアによる代替であることが明確にラベル付けされている場合は除く

テキストの代替としてのメディアを、さらにテキストによって代替する必要はない。

音声情報がない映像に対し同等として提供されている音声に対しては、テキストによる代替は必要ない。例えば、無声映画の代替として提供されている音声解説にキャプションを付与する必要はない。

すでに視覚と音声で同等の情報を提供できているので、わざわざキャプションを追加しなくてもOKということ。
同じ音声解説でも、オーディオコメンタリーのようなものであればキャプションも必要なはず。

メリット

この達成基準は、視覚的なコンテンツを知覚するのが困難な利用者の役に立つ。支援技術が、テキストによる代替を音声で読み上げる、視覚的に提示する、又は点字に変換することが可能になる。

テキストベースの時間依存メディアの代替は、収録済の映像コンテンツの意味を理解するのが困難な利用者の役に立つことがある。

ろう、難聴、又は何らかの理由で音声情報を理解するのが困難な人が、テキストによる提示を読むことができる。テキストを手話に自動翻訳する研究が現在進められている。

盲ろうの利用者が、テキストを点字で読むことができるようになる。

加えて、テキストは、非テキストコンテンツを検索可能なものにし、コンテンツを様々な方法で再利用できるようにする。

１つ目のメリットの内、「視覚的なコンテンツを知覚するのが困難な利用者のために視覚的に提示する」という点について。

恐らく、

弱視のユーザーが支援技術を用いて画面を拡大することで、情報を得られるようになる
動画だと一部分を拡大するだけでは内容を把握できない

ということだと思う。

この部分については結構迷ってしまった。
「視覚的なコンテンツを知覚するのが困難な利用者」という一文だと、完全に視力が無い人を想像してしまうが、実際には障がいの度合いもグラデーション状であるはず。マジョリティの目線で「こうであるはず！」と決めつけるのはよく無いよな…と自戒中。
（ここまで書いて的外れな解釈だったら恥ずかしい）

事例と具体的な達成方法

演説を録音した音声

「議会での議長の演説」という音声クリップへのリンクがある。そして、音声クリップへのリンクの直後に、テキストの書き起こしへのリンクが提供されている。

記者会見を録音した音声

ウェブページに、録音音声であることが分かる記者会見の録音音声へのリンクがある。また、そのページには記者会見のテキストによる書き起こしへのリンクもある。テキストによる書き起こしには、話者が発言したすべての逐語的な記録が含まれる。そこには、例えば、喝采、笑い、聴衆からの質問など、その録音の一部であるその他の重要な音声に言及するだけでなく、誰が話しているのかも記されている。

車のエンジンがどのように動くのかを説明するアニメーション

車のエンジンがどのように動くのかを見せているアニメーションがある。音声はなく、そのアニメーションはエンジンがどのように動くかを説明するチュートリアルの一部である。チュートリアルのテキストがすでに完全な説明をしているため、そのアニメーションはテキストの代替物であり、画像はテキストの代替物であり、テキストによる代替はそのアニメーションの簡潔な説明のみを含み、詳細についてはチュートリアルのテキストを参照している。

音声トラック付きの、映像しか含まないファイル

無音映画に、映像の動きを説明している音声トラックがある。

基本的には、

音声のみ：テキストに書き起こす
- G158: 音声のみの時間依存メディアに対する代替コンテンツを提供する
映像のみ：テキストや音声によって代替する
- G159: 映像のみの時間依存メディアに対する代替コンテンツを提供する
- G166: 重要な映像コンテンツを説明する音声を提供する
テキストの代替として映像のみ：簡潔な説明テキストによってラベルをつける

という方針でOK。

ここで重要なのは、「同等の情報を提供する」 ということ。
例えば音声を書き起こす場合、発言内容だけでなく、聴衆の反応などの背景音も含める必要がある。（コンテンツを理解するために重要な情報であれば）

これができていないと、いくら代替コンテンツを追加してもアクセシブルとは言えない
F67: 達成基準 1.1.1 及び達成基準 1.2.1 の失敗例－非テキストコンテンツに対して、同じ目的を果たしていない、又は同じ情報を提示していない長い説明を提供している

参考達成方法

適合のために必須ではないが、コンテンツをよりアクセシブルにするために、次の追加の達成方法を検討することが望ましい。ただし、すべての状況において、すべての達成方法が使用可能、又は効果的であるとは限らない。
H96: 音声解説を提供するために、track 要素を使用する

video要素に対してテキストトラックを追加できる。
そのテキストトラックを読み上げることもできる。
読み上げ完了前に次のテキストが表示された場合、読み上げがスキップされることがあるが、ビデオを一時停止することで長い読み上げにも対応することが可能？
知見が全くないので何もわからん。