UTF8 가변 인코딩은 어떻게 한 글자의 바이트 길이를 알 수 있을까. :: 수알치 블로그

UTF8 가변 인코딩은 어떻게 한 글자의 바이트 길이를 알 수 있을까.

2025. 10. 10. 21:22

UTF8 가변 인코딩은 어떻게 한 글자의 바이트 길이를 알 수 있을까.

한 바이트(1 바이트) 사용하는 문자:
- 가장 큰 비트에 0을 할당하고, 나머지 7비트에 기존의 아스키 코드를 모두 할당한다. 0xxxxxxx값을 모두 사용하였다. (아직 1xxxxxxx는 사용 가능한 상황이다.)
여러 바이트(2 바이트 이상) 사용하는 문자:
사용하려는 바이트가 2개 이상이면, 첫 바이트에는 몇 바이트를 사용하는지 알려주는 비트를 먼저 넣는다.
- 2바이트(110), 3바이트(1110), 4바이트(11110)
- 나머지 바이트는 여러 바이트에서 연결되었음을 알리는 비트를 먼저 넣는다. 이때 2바이트 표식을 넣은 데이터와 겹치지 않도록, 10이라는 비트를 넣어준다.
표식 비트가 아닌 나머지 비트는 모두 데이터 비트로 사용한다.

출처: 나무위키

[참고] https://namu.wiki/w/UTF-8

UTF-8

UTF-8은 가장 많이 사용되는 가변 길이 유니코드 인코딩이다. 켄 톰슨과 롭 파이크( Go 언어 를 만든 사람

namu.wiki

[동영상] https://www.youtube.com/shorts/1UYA4kDkZyk

저작자표시 비영리 (새창열림)

'소프트웨어개발&환경' 카테고리의 다른 글

은행 금융권은 왜 여전히 Java가 지배할까? (0)	2025.10.24
안전한 코딩을 위한 NASA의 Power of 10 규칙 (0)	2025.10.20
VSC, Cursor IO에서 소스 파일 비교하기 (0)	2025.10.09
AI 시대에 개발자가 되기 위한 프로그래밍 공부는? (0)	2025.09.23
노트북을 NAS 서버로 만들기 (0)	2025.09.12

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바