UTF8 가변 인코딩은 어떻게 한 글자의 바이트 길이를 알 수 있을까.
-
한 바이트(1 바이트) 사용하는 문자:
-
가장 큰 비트에 0을 할당하고, 나머지 7비트에 기존의 아스키 코드를 모두 할당한다. 0xxxxxxx값을 모두 사용하였다. (아직 1xxxxxxx는 사용 가능한 상황이다.)
-
-
여러 바이트(2 바이트 이상) 사용하는 문자:사용하려는 바이트가 2개 이상이면, 첫 바이트에는 몇 바이트를 사용하는지 알려주는 비트를 먼저 넣는다.
-
2바이트(110), 3바이트(1110), 4바이트(11110)
-
나머지 바이트는 여러 바이트에서 연결되었음을 알리는 비트를 먼저 넣는다. 이때 2바이트 표식을 넣은 데이터와 겹치지 않도록, 10이라는 비트를 넣어준다.
-
-
표식 비트가 아닌 나머지 비트는 모두 데이터 비트로 사용한다.

[참고] https://namu.wiki/w/UTF-8
UTF-8
UTF-8은 가장 많이 사용되는 가변 길이 유니코드 인코딩이다. 켄 톰슨과 롭 파이크( Go 언어 를 만든 사람
namu.wiki
[동영상] https://www.youtube.com/shorts/1UYA4kDkZyk
반응형
'소프트웨어개발&환경' 카테고리의 다른 글
| 은행 금융권은 왜 여전히 Java가 지배할까? (0) | 2025.10.24 |
|---|---|
| 안전한 코딩을 위한 NASA의 Power of 10 규칙 (0) | 2025.10.20 |
| VSC, Cursor IO에서 소스 파일 비교하기 (0) | 2025.10.09 |
| AI 시대에 개발자가 되기 위한 프로그래밍 공부는? (0) | 2025.09.23 |
| 노트북을 NAS 서버로 만들기 (0) | 2025.09.12 |
