UTF-8는 훌륭한 설계임

3 days ago 11

UTF-8 설계의 탁월함

UTF-8 인코딩을 처음 접했을 때, 서로 다른 언어와 문자의 수백만 가지 캐릭터를 하나의 체계로 아우르면서도 기존 ASCII와 호환되는 구조에 큰 인상을 받음

기본적으로 UTF-8은 최대 32비트를 활용하지만, ASCII는 7비트만 사용함
UTF-8의 설계 원칙은 다음과 같음

불과 128문자에 한정된 구식 시스템과 수백만 문자를 아우르는 체계를 접목하는 발상이 매우 혁신적임

UTF-8은 유니코드 문자 집합의 모든 문자를 표현할 목적으로 설계된 가변 길이 문자 인코딩임

첫 번째 바이트의 선행 비트가 인코딩에 필요한 전체 바이트 수를 결정함

1바이트 패턴 바이트 수 전체 바이트 시퀀스 패턴

주바이트와 연속 바이트의 나머지 비트를 결합해 하나의 코드 포인트를 만듦
코드 포인트는 고유 유니코드 문자 식별자로, "U+" 접두사와 16진수로 표현됨
예: "A"의 코드 포인트는 U+0041임

UTF-8 인코딩 바이트로부터 문자를 해석하는 흐름은 다음과 같음

바이트를 읽고, 처음이 0이면 단일 바이트 문자(ASCII)로 간주해서 나머지 7비트로 문자를 표시하고 다음 바이트로 이동
0이 아니라면
- 110이면 2바이트 문자로 다음 바이트 한개 추가로 읽음
- 1110이면 3바이트 문자로 다음 2개 바이트 읽음
- 11110이면 4바이트 문자로 추가 3개 바이트 읽음
결정된 바이트에서 선두 비트 제외한 나머지 비트를 결합해서 코드 포인트의 이진값으로 활용
유니코드 문자 집합에서 코드 포인트 찾아 화면에 표시
다음 바이트로 반복

예를 들어 힌디어 문자 "अ"(Devanagari Letter A)는 UTF-8로
11100000 10100100 10000101
로 인코딩됨

이 텍스트는 영어와 이모지 문자를 모두 포함
저장시 총 13바이트를 가짐:

01001000 01100101 01111001 11110000 10011111 10010001 10001011 00100000 01000010 01110101 01100100 01100100 01111001

먼저, 각 바이트를 UTF-8 디코딩 규칙에 따라 평가함

바이트 해석

01001000	0으로 시작, 단일 바이트 ASCII, 'H'를 표시
01100101	0으로 시작, 단일 바이트 ASCII, 'e' 표시
01111001	0으로 시작, 단일 바이트 ASCII, 'y' 표시
11110000	11110으로 시작, 4바이트 문자의 첫 바이트
10011111	10으로 시작, 연속 바이트
10010001	10으로 시작, 연속 바이트
10001011	10으로 시작, 연속 바이트
- 이 4바이트의 나머지 비트 합성 결과: 0000111111010001001011(16진수 1F44B) → 코드 포인트 U+1F44B(손흔드는 이모지 "👋")
00100000	0으로 시작, 단일 바이트 ASCII, 공백
01000010	0으로 시작, 단일 바이트 ASCII, 'B'
01110101	0으로 시작, 단일 바이트 ASCII, 'u'
01100100	0으로 시작, 단일 바이트 ASCII, 'd'
01100100	0으로 시작, 단일 바이트 ASCII, 'd'
01111001	0으로 시작, 단일 바이트 ASCII, 'y'

이 파일은 유효한 UTF-8 파일이지만, 비ASCII 문자(이모지)가 포함되어 있으므로 ASCII와의 하위 호환성은 아님

이 파일엔 비ASCII 문자가 없음
저장시 9바이트로 구성

01001000 01100101 01111001 00100000 01000010 01110101 01100100 01100100 01111001

각 바이트 분석 결과

바이트 해석