이 라이브러리는 UTF-8 인코딩에 대한 기본 지원을 제공합니다.이 라이브러리는 인코딩 처리 이외에 유니코드에 대한 지원을 제공하지 않습니다.문자 분류와 같이 의미가 필요한 모든 작업은 범위 밖에 있습니다.
명시되지 않은 경우, 매개 변수로 바이트 위치를 기대하는 모든 함수는 지정된 위치가 바이트 시퀀스의 시작이거나 주제 문자열의 길이를 더한 것이라고 가정합니다.문자열 라이브러리와 마찬가지로 부정 인덱스는 문자열의 끝부터 계산됩니다.
여기에서 UTF-8 사용 가능한 큰 카탈로그의 문자 를 찾을 수 있습니다..
요약
함수
0개 이상의 코드 포인트를 UTF-8 바이트 순열로 변환합니다.
지정된 문자열의 모든 코드 지점을 반복하는 반복기 함수를 반환합니다.
지정된 문자열의 모든 코드 포인트(정수로)를 반환합니다.
지정된 문자열에서 UTF-8 코드 포인트 수를 반환합니다.
의 코드포인트 인코딩이 시작되는 위치(바이트 단위)를 반환합니다(바이트 위치에서 계산).
지정된 문자열의 그래펴 클러스터를 반복하는 반복기 함수를 반환합니다.Returns an iterator function that iterates over the grapheme clusters of a given string.
입력 문자열을 일반 형식 C로 변환합니다.
입력 문자열을 일반 형식 D로 변환합니다.
속성
주제가 유효한 UTF-8 문자열인 경우 정확히 0개 이상의 UTF-8 바이트 시퀀스와 일치하는 패턴 "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" , 대상이 유효한 UTF-8 문자열인 경우.
함수
제공된 문자열(str)에서 바이트 위치 i 와 바이트 위치 j 사이에서 시작하는 모든 코드포인트(정수로)를 반환합니다(둘 다 포함).기본값은 i 이고, 기본값은 1 이고, 기본값은 j 이고, 기본값은 i 입니다.유효하지 않은 바이트 시퀀스를 만나면 오류가 발생합니다.
매개 변수
속성
charpattern
주제가 유효한 UTF-8 문자열인 경우 정확히 0개 이상의 UTF-8 바이트 시퀀스와 일치하는 패턴 "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" , 대상이 유효한 UTF-8 문자열인 경우.