utf8

사용되지 않는 항목 표시

*이 콘텐츠는 AI(베타)를 사용해 번역되었으며, 오류가 있을 수 있습니다. 이 페이지를 영어로 보려면 여기를 클릭하세요.

이 라이브러리는 UTF-8 인코딩에 대한 기본 지원을 제공합니다. 이 라이브러리는 인코딩 처리 외에는 유니코드에 대한 지원을 제공하지 않습니다. 캐릭터 클래식화와 같은 의미의 개체에 대한 작업은 이 라이브러리의 범위 밖입니다.

다른 경우를 제외하고는 바이트 위치를 매개 변수로 기대하는 모든 함수는 주소 순서의 시작이거나 주소 문자열의 길이와 관련된 하나 이상의 기능을 기대합니다. 즉, 문자열 라이브러리에서 부정 인덱스는 문자열의 끝에서 카운트됩니다.

여기에서 사용 가능한 UTF-8 문자 카탈로그를 대량으로 찾을 수 있습니다.

요약

함수

  • char(codepoints : Tuple<number>):string

    0개 이상의 코드포인트를 UTF-8 바이트 시퀀스로 변환합니다.

  • 지정된 문자열의 모든 코드포인트를 반복하는 반복기 함수를 반환합니다.Returns an iterator function that iterates over all codepoints in a given string.

  • 지정된 문자열의 모든 코드포인트(정수)를 반환합니다.

  • 지정된 문자열에 있는 UTF-8 코드포인트 수를 반환합니다.

  • n 코드포인트의 암호화 코드 위치(바이트 기준)를 반환합니다(쿼트 기준).s (카운트 기준)에서 시작합니다.

  • 지정된 문자열의 그래프 클러스터를 반복하는 반복기 함수를 반환합니다.Returns an iterator function that iterates over the grapheme clusters of a given string.

  • 입력 문자열을 일반 형식 C로 변환합니다.

  • 입력 문자열을 일반 형식 D로 변환합니다.

속성

  • 패턴 "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", 주제가 UTF-8 문자열인 경우 정확히 0바이트 순서를 일치하는 UTF-8 바이트 시퀀스를 찾습니다. 여기에서 주제는 유효한 UTF-8 문자열입니다.

함수

char

코드포인트 0개 이상을 정수로 받고, 각 코드포인트를 해당 UTF-8 바이트 시퀀스로 변환하고, 이 시퀀스의 전체 문자열을 반환합니다.

매개 변수

codepoints: Tuple<number>

반환

반환 변수 함수 만들기 위해 이터 형식 반환:


for position, codepoint in utf8.codes(str) do
-- 신체
end

문자열 str 의 모든 코드 포인트를 반복합니다. 잘못된 바이트 시퀀스를 만나면 오류가 발생합니다.

매개 변수

str: string

반복할 문자열.

codepoint

제공된 문자열(str)의 모든 코드포인트(as integers)를 반환하지만 바이트 위치 ij 사이에 있는 코드포인트는 반환하지 않습니다(DEFAULT i 는 1> 11> 및 <

매개 변수

str: string

이 문자열에서 가져올 코드포인트 인덱스입니다.

기본값: 1

반환될 유일한 코드포인트 인덱스는 ij 사이에 있는 코드포인트 인덱스입니다. 제외하면 기본적으로 i 값이 됩니다.

기본값: i

반환

위치 i 부터 j 까지 시작하는 문자열 str 에 대한 UTF-8 코드포인트 수를 반환합니다(모두 포함). 기본값은 1>i1> 이며, 4> 14> 는 첫 번

매개 변수

시작 위치.

기본값: 1

종점.

기본값: -1

반환

offset

매개 변수

기본값: 1

반환

graphemes

반복기 함수를 반환하여


for first, last in utf8.graphemes(str) do
local grapheme = s:sub(first, last)
-- 신체
end

문자열의 그래프 클러스터를 반복합니다.

매개 변수

반환

nfcnormalize

입력 문자열을 일반 형식 C로 변환하여 손상된 문자를 구성된 문자로 변환합니다.

매개 변수

str: string

반환

nfdnormalize

구문 문자열을 Normal Form D로 변환하여 구문 문자열을 해석합니다.

매개 변수

str: string

변환할 문자열.

반환

속성

charpattern

패턴 "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", 주제가 UTF-8 문자열인 경우 정확히 0바이트 순서를 일치하는 UTF-8 바이트 시퀀스를 나타냅니다. 순서가 UTF-8 문자열이 아닌 경우 순서가 더 낮은 바이트 순서를 나타냅니다. 순서가 더 낮은 바이트 순서이면 순서가 더