参考資料:ASCII表・UTF-8規則
演習で使用する文字コード表とエンコーディング規則
ASCII表(0x00~0x7F)
基本的な英数字と制御文字の対応表。演習では主に0x20(スペース)~0x7E(~)を使用します。
| 16進 | 10進 | 2進 | 文字 | 説明 | 16進 | 10進 | 2進 | 文字 | 説明 |
|---|---|---|---|---|---|---|---|---|---|
| 0x20 | 32 | 00100000 | ␣ | スペース | 0x40 | 64 | 01000000 | @ | アットマーク |
| 0x21 | 33 | 00100001 | ! | 感嘆符 | 0x41 | 65 | 01000001 | A | 大文字A |
| 0x22 | 34 | 00100010 | " | 引用符 | 0x42 | 66 | 01000010 | B | 大文字B |
| 0x23 | 35 | 00100011 | # | シャープ | 0x43 | 67 | 01000011 | C | 大文字C |
| 0x24 | 36 | 00100100 | $ | ドル記号 | 0x44 | 68 | 01000100 | D | 大文字D |
| 0x25 | 37 | 00100101 | % | パーセント | 0x45 | 69 | 01000101 | E | 大文字E |
| 0x26 | 38 | 00100110 | & | アンパサンド | 0x46 | 70 | 01000110 | F | 大文字F |
| 0x27 | 39 | 00100111 | ' | アポストロフィ | 0x47 | 71 | 01000111 | G | 大文字G |
| 0x28 | 40 | 00101000 | ( | 左括弧 | 0x48 | 72 | 01001000 | H | 大文字H |
| 0x29 | 41 | 00101001 | ) | 右括弧 | 0x49 | 73 | 01001001 | I | 大文字I |
| 0x2A | 42 | 00101010 | * | アスタリスク | 0x4A | 74 | 01001010 | J | 大文字J |
| 0x2B | 43 | 00101011 | + | プラス | 0x4B | 75 | 01001011 | K | 大文字K |
| 0x2C | 44 | 00101100 | , | カンマ | 0x4C | 76 | 01001100 | L | 大文字L |
| 0x2D | 45 | 00101101 | - | ハイフン | 0x4D | 77 | 01001101 | M | 大文字M |
| 0x2E | 46 | 00101110 | . | ピリオド | 0x4E | 78 | 01001110 | N | 大文字N |
| 0x2F | 47 | 00101111 | / | スラッシュ | 0x4F | 79 | 01001111 | O | 大文字O |
| 0x30 | 48 | 00110000 | 0 | 数字0 | 0x50 | 80 | 01010000 | P | 大文字P |
| 0x31 | 49 | 00110001 | 1 | 数字1 | 0x51 | 81 | 01010001 | Q | 大文字Q |
| 0x32 | 50 | 00110010 | 2 | 数字2 | 0x52 | 82 | 01010010 | R | 大文字R |
| 0x33 | 51 | 00110011 | 3 | 数字3 | 0x53 | 83 | 01010011 | S | 大文字S |
| 0x34 | 52 | 00110100 | 4 | 数字4 | 0x54 | 84 | 01010100 | T | 大文字T |
| 0x35 | 53 | 00110101 | 5 | 数字5 | 0x55 | 85 | 01010101 | U | 大文字U |
| 0x36 | 54 | 00110110 | 6 | 数字6 | 0x56 | 86 | 01010110 | V | 大文字V |
| 0x37 | 55 | 00110111 | 7 | 数字7 | 0x57 | 87 | 01010111 | W | 大文字W |
| 0x38 | 56 | 00111000 | 8 | 数字8 | 0x58 | 88 | 01011000 | X | 大文字X |
| 0x39 | 57 | 00111001 | 9 | 数字9 | 0x59 | 89 | 01011001 | Y | 大文字Y |
| 0x3A | 58 | 00111010 | : | コロン | 0x5A | 90 | 01011010 | Z | 大文字Z |
| 0x3B | 59 | 00111011 | ; | セミコロン | 0x5B | 91 | 01011011 | [ | 左角括弧 |
| 0x3C | 60 | 00111100 | < | 小なり | 0x5C | 92 | 01011100 | \ | バックスラッシュ |
| 0x3D | 61 | 00111101 | = | 等号 | 0x5D | 93 | 01011101 | ] | 右角括弧 |
| 0x3E | 62 | 00111110 | > | 大なり | 0x5E | 94 | 01011110 | ^ | キャレット |
| 0x3F | 63 | 00111111 | ? | 疑問符 | 0x5F | 95 | 01011111 | _ | アンダースコア |
小文字a-zの対応
小文字a-zは大文字A-Zの値に32を加えた値になります。
例:'a' = 0x61 (97), 'b' = 0x62 (98), 'z' = 0x7A (122)
UTF-8エンコーディング規則
Unicode文字をUTF-8バイト列に変換する規則。日本語文字は通常3バイトになります。
1バイト文字(ASCII)
範囲:U+0000 ~ U+007F
形式:0xxxxxxx
例:'A' = U+0041 → 0x41 (01000001)
2バイト文字
範囲:U+0080 ~ U+07FF
形式:110xxxxx 10xxxxxx
例:U+00A3 (£) → 0xC2 0xA3
3バイト文字(日本語など)
範囲:U+0800 ~ U+FFFF
形式:1110xxxx 10xxxxxx 10xxxxxx
例:'あ' = U+3042 → 0xE3 0x81 0x82
4バイト文字
範囲:U+10000 ~ U+10FFFF
形式:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
例:絵文字など
変換の手順
- Unicodeコードポイントを2進数に変換
- UTF-8の形式に従ってビットを配置
- 各バイトを16進数で表現
よく使う日本語文字のUTF-8
演習でよく使われる日本語文字のUnicodeとUTF-8対応表
| 文字 | Unicode | UTF-8(16進) | UTF-8(2進) |
|---|---|---|---|
| あ | U+3042 | E3 81 82 | 11100011 10000001 10000010 |
| い | U+3044 | E3 81 84 | 11100011 10000001 10000100 |
| う | U+3046 | E3 81 86 | 11100011 10000001 10000110 |
| え | U+3048 | E3 81 88 | 11100011 10000001 10001000 |
| お | U+304A | E3 81 8A | 11100011 10000001 10001010 |
| か | U+304B | E3 81 8B | 11100011 10000001 10001011 |
| さ | U+3055 | E3 81 95 | 11100011 10000001 10010101 |
| た | U+305F | E3 81 9F | 11100011 10000001 10011111 |
| な | U+306A | E3 81 AA | 11100011 10000001 10101010 |
| は | U+306F | E3 81 AF | 11100011 10000001 10101111 |
| ま | U+307E | E3 81 BE | 11100011 10000001 10111110 |
| や | U+3084 | E3 82 84 | 11100011 10000010 10000100 |
| ら | U+3089 | E3 82 89 | 11100011 10000010 10001001 |
| わ | U+308F | E3 82 8F | 11100011 10000010 10001111 |
| ん | U+3093 | E3 82 93 | 11100011 10000010 10010011 |
| 一 | U+4E00 | E4 B8 80 | 11100100 10111000 10000000 |
| 二 | U+4E8C | E4 BA 8C | 11100100 10111010 10001100 |
| 三 | U+4E09 | E4 B8 89 | 11100100 10111000 10001001 |
| 九 | U+4E5D | E4 B9 9D | 11100100 10111001 10011101 |
| 十 | U+5341 | E5 8D 81 | 11100101 10001101 10000001 |
| 百 | U+767E | E7 99 BE | 11100111 10011001 10111110 |
| 千 | U+5343 | E5 8D 83 | 11100101 10001101 10000011 |
| 万 | U+4E07 | E4 B8 87 | 11100100 10111000 10000111 |
文字の種類
- ひらがな:あいうえお...(U+3040~U+309F)
- カタカナ:アイウエオ...(U+30A0~U+30FF)
- 漢数字:一二三四五六七八九十百千万(U+4E00~U+9FFF)
さらに詳しい参考資料
より包括的なUTF-8とUnicodeの情報が必要な場合は、以下の外部サイトをご利用ください。
📚 公式・学術サイト
-
Unicode Charts (unicode.org)
公式Unicode文字表・コードポイント一覧
-
UTF-8 Character Table
完全なUTF-8文字対応表(検索機能付き)
-
FileFormat.Info UTF-8
詳細なUTF-8文字情報・バイト列表示
🔍 実用ツール
-
Unicode Converter
文字⇔Unicode⇔UTF-8相互変換ツール
-
Text Unicode Converter
テキストの一括変換・エンコーディング確認
-
Hex to Binary Converter
16進数⇔2進数変換計算機
💡 学習のヒント
- 演習では基本的な文字(ASCII・ひらがな・漢数字)から始めましょう
- 複雑な文字(絵文字・特殊記号)は上級者向けです
- 外部サイトで文字を検索する際は、文字名やUnicodeコードポイントで検索すると効率的です