👻
Web開発者ロードマップを学習する 第8章 文字コード
はじめに
WEB DEVELOPER Roadmap 2021 に
webエンジニアが身につけておくべきスキルの順序が示されています。
このロードマップに沿って、各スキルの要点を抑えた記事を書きます。
WEB DEVELOPER Roadmap 2021 Introduction
- Git - Version control
- Basic Terminal Usage
- Data Structures & Algorithms
- Git Hub
- Licenses
- Semantic Versioning
- SSH
- HTTP/HTTPS and APIs
- Design Patterns
- Character Encodings
今回は文字コードについて学習します。
まとめた記事は今後リンク更新していきます!
文字コードとは?
- 文字をコンピューターが処理できるように数値に割り当てたもの
- 文字コードにはさまざまな種類がある
※ コンピューターは0か1の2進数で表現されたものしか理解できない
文字コードの種類
ASCII(アスキー)
- 米国規格協会(ANSI)によって定められている
- 基本である文字コード
- 主にアルファベット、数字、記号が表現可能
- 1文字7ビットで表現される
シフトJISコード
- 日本語の文字コード
- ひらがな、漢字、カタカナが表現可能
- Windowsでも使われている
- 1文字2バイトで表現される
Unicode
- 全世界の文字コードをひとつのに納めようと規格されたもの
- 1993年にISOで標準化されている
- 当初は1文字2バイトで表す予定だったが、2バイトを超えて拡張されていっている
EUC(イーユーシー)
- UNIXというOSでよく使われている
- 日本語文字コード
- 1文字2バイトで表現されるが、補助漢字などは3バイト使用される
※ ISOとは
文字集合(文字セット)
- どの文字体系を表すか決められたもの
- 表現する文字の一覧のようなもの
- 文字コードは文字集合をコンピュータが処理できる数値(バイト列)で規格化されたもの
- 例として、USC(国際符号化文字集合)という世界の文字コードの統一を目的としたものがある
※ USC(国際符号化文字集合)の中にUnicodeが存在します
符号化方式(エンコード方式)
- 文字集合を規格に沿ってコンピューターで扱える数値に変換する
- 代表的なものとして UTF(USC Transformation Format) がある
UTF
USCで割り当てられた文字の一覧をコンピューターの表現できる数値に変更したもの
UTFの種類 | 説明 |
---|---|
UTF-8 | • 8ビットずつの単位で符号化 • ASCIIと互換性を持たせている |
UTF-16 | • 16ビットずつの単位で符号化 |
参考記事
文字コードUTF-8とは? 仕組みとコード表
初心者向け】文字コードの種類と仕組み入門 ~ascii/Shift-JISの互換,UnicodeとUTF-8の違い,Base64/QPについて~
知っておきたい! 文字コードの基礎知識 ……ASCII,シフトJIS,Unicode etc.
Discussion