UTF8 가변 인코딩은 어떻게 한 글자의 바이트 길이를 알 수 있을까.

 

  1. 한 바이트(1 바이트) 사용하는 문자:
    • 가장 큰 비트에 0을 할당하고, 나머지 7비트에 기존의 아스키 코드를 모두 할당한다. 0xxxxxxx값을 모두 사용하였다. (아직 1xxxxxxx는 사용 가능한 상황이다.)
  2. 여러 바이트(2 바이트 이상) 사용하는 문자:  
      사용하려는 바이트가 2개 이상이면, 첫 바이트에는 몇 바이트를 사용하는지 알려주는 비트를 먼저 넣는다.
    • 2바이트(110), 3바이트(1110), 4바이트(11110)
    • 나머지 바이트는 여러 바이트에서 연결되었음을 알리는 비트를 먼저 넣는다. 이때 2바이트 표식을 넣은 데이터와 겹치지 않도록, 10이라는 비트를 넣어준다.
  3. 표식 비트가 아닌 나머지 비트는 모두 데이터 비트로 사용한다.

출처: 나무위키

 

[참고] https://namu.wiki/w/UTF-8 

 

UTF-8

UTF-8은 가장 많이 사용되는 가변 길이 유니코드 인코딩이다. 켄 톰슨과 롭 파이크( Go 언어 를 만든 사람

namu.wiki

 

[동영상] https://www.youtube.com/shorts/1UYA4kDkZyk

 

 

반응형

+ Recent posts