👻

Web開発者ロードマップを学習する 第8章 文字コード

2021/03/28に公開

はじめに

WEB DEVELOPER Roadmap 2021
webエンジニアが身につけておくべきスキルの順序が示されています。
このロードマップに沿って、各スキルの要点を抑えた記事を書きます。

WEB DEVELOPER Roadmap 2021 Introduction

今回は文字コードについて学習します。
まとめた記事は今後リンク更新していきます!

文字コードとは?

  • 文字をコンピューターが処理できるように数値に割り当てたもの
  • 文字コードにはさまざまな種類がある

※ コンピューターは0か1の2進数で表現されたものしか理解できない

文字コードの種類

ASCII(アスキー)

  • 米国規格協会(ANSI)によって定められている
  • 基本である文字コード
  • 主にアルファベット、数字、記号が表現可能
  • 1文字7ビットで表現される

シフトJISコード

  • 日本語の文字コード
  • ひらがな、漢字、カタカナが表現可能
  • Windowsでも使われている
  • 1文字2バイトで表現される

Unicode

  • 全世界の文字コードをひとつのに納めようと規格されたもの
  • 1993年にISOで標準化されている
  • 当初は1文字2バイトで表す予定だったが、2バイトを超えて拡張されていっている

EUC(イーユーシー)

  • UNIXというOSでよく使われている
  • 日本語文字コード
  • 1文字2バイトで表現されるが、補助漢字などは3バイト使用される

※ ISOとは

文字集合(文字セット)

  • どの文字体系を表すか決められたもの
  • 表現する文字の一覧のようなもの
  • 文字コードは文字集合をコンピュータが処理できる数値(バイト列)で規格化されたもの
  • 例として、USC(国際符号化文字集合)という世界の文字コードの統一を目的としたものがある

※ USC(国際符号化文字集合)の中にUnicodeが存在します

符号化方式(エンコード方式)

  • 文字集合を規格に沿ってコンピューターで扱える数値に変換する
  • 代表的なものとして UTF(USC Transformation Format) がある

UTF

USCで割り当てられた文字の一覧をコンピューターの表現できる数値に変更したもの

UTFの種類 説明
UTF-8 • 8ビットずつの単位で符号化
• ASCIIと互換性を持たせている
UTF-16 • 16ビットずつの単位で符号化

参考記事

文字コードUTF-8とは? 仕組みとコード表
初心者向け】文字コードの種類と仕組み入門 ~ascii/Shift-JISの互換,UnicodeとUTF-8の違い,Base64/QPについて~
知っておきたい! 文字コードの基礎知識 ……ASCII,シフトJIS,Unicode etc.

Discussion