🧃

なぜ文字化けは起こるのか?【はじめからそうやって教えてくれればいいのに!】

に公開

文字化けとは?

Webサイトやメールを開いたときに、判読不可能な謎の文字列に遭遇したことはありませんか? いわゆる「文字化け」と呼ばれる現象です。

文字化けとは、コンピュータで文字が正しく表示・印刷されず、本来とは異なる不規則で意味不明な記号や文字の連なりとして現れること。

文字化け - IT用語辞典 e-Words

でもなぜ文字化けは起こるのでしょうか?

人間とコンピューターの文字の理解の違い

人間は、当たり前かもしれませんが、文字を理解する生き物です。

アルファベットやひらがな、カタカナ、漢字など、色んな文字を読んで、これは「A」だなとか、これは「B」だなというのを自然に判断することができます。

しかし、コンピューターは文字をそのまま理解することはできません。
代わりに、文字を 番号 として認識します。

例えば、『A』を見て「これは65番だ」とか、『B』を見て「これは66番だ」というように理解します。

そして、すべての文字には、番号が割り当てられています。

上記のイメージのように、番号が割り振られた「対応表」を見ながら、コンピューターは、文字を番号に変換したり、逆に番号を文字に戻したりします。

文字化けが起こる理由

ところが、もし文字を変換して戻すときに、別の対応表が使われてしまったらどうなるでしょうか?

例えば、同じ「あ」という文字でも、ある対応表では「1番」で、別の対応表では「6番」だったりする可能性があります。

当然、文字と番号が書かれている場所が違うので、本来とは異なる文字列が表示されてしまいます。これが、文字化けが起こる理由です。

文字コードとは

先ほどから「対応表」という呼び方をしていましたが、この表のことを「文字コード」と呼んだりもします。

文字コード(もじコード、英: character encoding)とは、識別番号を用いて文字などの記号を表す規則である。

文字コード

文字化けは、「送る人」と「受け取る人」が存在するときによく起こります。例えば、メールやWebサイトの表示のように、送る人と受け取る人の間で、対応表の解釈のズレがあると、文字化けが発生します。

文字コードの種類

文字コードにはたくさんの種類があります。代表的なものだと「ASCII」「Shift_JIS」「EUC-JP」「UTF-8」などがあります。

文字コードがたくさんあると、文字化けの原因になりかねないので、現在では「UTF-8」という、世界共通の文字コードが広く使われています。

さいごに

動画もアルヨ~。

https://youtu.be/B91uQqMS3Dc

この記事の他にも、「100秒テック」というチャンネルでアニメーション動画作ってます!ぜひ見てください!

https://www.youtube.com/watch?v=yQKbhBJjZ7c&t=13s

Discussion