参考資料:ASCII表・UTF-8規則

演習で使用する文字コード表とエンコーディング規則

ASCII表(0x00~0x7F)

基本的な英数字と制御文字の対応表。演習では主に0x20(スペース)~0x7E(~)を使用します。

16進10進2進文字説明 16進10進2進文字説明
0x203200100000スペース 0x406401000000@アットマーク
0x213300100001!感嘆符 0x416501000001A大文字A
0x223400100010"引用符 0x426601000010B大文字B
0x233500100011#シャープ 0x436701000011C大文字C
0x243600100100$ドル記号 0x446801000100D大文字D
0x253700100101%パーセント 0x456901000101E大文字E
0x263800100110&アンパサンド 0x467001000110F大文字F
0x273900100111'アポストロフィ 0x477101000111G大文字G
0x284000101000(左括弧 0x487201001000H大文字H
0x294100101001)右括弧 0x497301001001I大文字I
0x2A4200101010*アスタリスク 0x4A7401001010J大文字J
0x2B4300101011+プラス 0x4B7501001011K大文字K
0x2C4400101100,カンマ 0x4C7601001100L大文字L
0x2D4500101101-ハイフン 0x4D7701001101M大文字M
0x2E4600101110.ピリオド 0x4E7801001110N大文字N
0x2F4700101111/スラッシュ 0x4F7901001111O大文字O
0x3048001100000数字0 0x508001010000P大文字P
0x3149001100011数字1 0x518101010001Q大文字Q
0x3250001100102数字2 0x528201010010R大文字R
0x3351001100113数字3 0x538301010011S大文字S
0x3452001101004数字4 0x548401010100T大文字T
0x3553001101015数字5 0x558501010101U大文字U
0x3654001101106数字6 0x568601010110V大文字V
0x3755001101117数字7 0x578701010111W大文字W
0x3856001110008数字8 0x588801011000X大文字X
0x3957001110019数字9 0x598901011001Y大文字Y
0x3A5800111010:コロン 0x5A9001011010Z大文字Z
0x3B5900111011;セミコロン 0x5B9101011011[左角括弧
0x3C6000111100<小なり 0x5C9201011100\バックスラッシュ
0x3D6100111101=等号 0x5D9301011101]右角括弧
0x3E6200111110>大なり 0x5E9401011110^キャレット
0x3F6300111111?疑問符 0x5F9501011111_アンダースコア

小文字a-zの対応

小文字a-zは大文字A-Zの値に32を加えた値になります。

例:'a' = 0x61 (97), 'b' = 0x62 (98), 'z' = 0x7A (122)

UTF-8エンコーディング規則

Unicode文字をUTF-8バイト列に変換する規則。日本語文字は通常3バイトになります。

1バイト文字(ASCII)

範囲:U+0000 ~ U+007F

形式:0xxxxxxx

例:'A' = U+0041 → 0x41 (01000001)

2バイト文字

範囲:U+0080 ~ U+07FF

形式:110xxxxx 10xxxxxx

例:U+00A3 (£) → 0xC2 0xA3

3バイト文字(日本語など)

範囲:U+0800 ~ U+FFFF

形式:1110xxxx 10xxxxxx 10xxxxxx

例:'あ' = U+3042 → 0xE3 0x81 0x82

4バイト文字

範囲:U+10000 ~ U+10FFFF

形式:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

例:絵文字など

変換の手順

  1. Unicodeコードポイントを2進数に変換
  2. UTF-8の形式に従ってビットを配置
  3. 各バイトを16進数で表現

よく使う日本語文字のUTF-8

演習でよく使われる日本語文字のUnicodeとUTF-8対応表

文字 Unicode UTF-8(16進) UTF-8(2進)
U+3042 E3 81 82 11100011 10000001 10000010
U+3044 E3 81 84 11100011 10000001 10000100
U+3046 E3 81 86 11100011 10000001 10000110
U+3048 E3 81 88 11100011 10000001 10001000
U+304A E3 81 8A 11100011 10000001 10001010
U+304B E3 81 8B 11100011 10000001 10001011
U+3055 E3 81 95 11100011 10000001 10010101
U+305F E3 81 9F 11100011 10000001 10011111
U+306A E3 81 AA 11100011 10000001 10101010
U+306F E3 81 AF 11100011 10000001 10101111
U+307E E3 81 BE 11100011 10000001 10111110
U+3084 E3 82 84 11100011 10000010 10000100
U+3089 E3 82 89 11100011 10000010 10001001
U+308F E3 82 8F 11100011 10000010 10001111
U+3093 E3 82 93 11100011 10000010 10010011
U+4E00 E4 B8 80 11100100 10111000 10000000
U+4E8C E4 BA 8C 11100100 10111010 10001100
U+4E09 E4 B8 89 11100100 10111000 10001001
U+4E5D E4 B9 9D 11100100 10111001 10011101
U+5341 E5 8D 81 11100101 10001101 10000001
U+767E E7 99 BE 11100111 10011001 10111110
U+5343 E5 8D 83 11100101 10001101 10000011
U+4E07 E4 B8 87 11100100 10111000 10000111

文字の種類

  • ひらがな:あいうえお...(U+3040~U+309F)
  • カタカナ:アイウエオ...(U+30A0~U+30FF)
  • 漢数字:一二三四五六七八九十百千万(U+4E00~U+9FFF)

さらに詳しい参考資料

より包括的なUTF-8とUnicodeの情報が必要な場合は、以下の外部サイトをご利用ください。

📚 公式・学術サイト

🔍 実用ツール

💡 学習のヒント

  • 演習では基本的な文字(ASCII・ひらがな・漢数字)から始めましょう
  • 複雑な文字(絵文字・特殊記号)は上級者向けです
  • 外部サイトで文字を検索する際は、文字名やUnicodeコードポイントで検索すると効率的です
← 演習に戻る