utf8

Pokaż przestarzałe

*Ta zawartość została przetłumaczona przy użyciu narzędzi AI (w wersji beta) i może zawierać błędy. Aby wyświetlić tę stronę w języku angielskim, kliknij tutaj.

Ta biblioteka zapewnia podstawowe wsparcie dla UTF-8 kodowania.Ta biblioteka nie zapewnia żadnego wsparcia dla Unicode innego niż obsługa kodowania.Każda operacja, która wymaga znaczenia znaku, takie jak klasyfikacja znaków, jest poza jej zakresem.

Chyba że zaznaczono inaczej, wszystkie funkcje, które oczekują pozycji bajtu jako parametru, zakładają, że podana pozycja jest albo początkiem sekwencji bajtów, albo jedną plus długością ciągprzedmiotu.Podobnie jak w bibliotece strun, indeksy ujemne liczą od końca ciąg.

Możesz znaleźć duży katalog używalnych UTF-8 znaków tutaj .

Podsumowanie

Funkcje

char(codepoints : Tuple<number>):string
Konwertuje zero lub więcej punktów kodu na sekwencje bajtów UTF-8.
codes(str : string):function,string,number
Zwraca funkcję iteratora, która iteruje po wszystkich punktach kodu w danym ciągu.
codepoint(str : string,i : number,j : number):Tuple<number>
Zwraca punkty kodu (jako liczby całkowite) z wszystkich punktów kodu w danym ciągu.
len(s : string,i : number,j : number):number
Zwraca liczbę punktów kodu UTF-8 w danym ciągu.
offset(s : string,n : number,i : number):number?
Zwraca pozycję (w bajtach) gdzie rozpoczyna się kodowanie punktu n -ego kodu s (licząc od pozycji bajtu i )
graphemes(str : string,i : number,j : number):function
Zwraca funkcję iteratora, która iteruje nad grupami grafemów danego ciągu.
nfcnormalize(str : string):string
Konwertuje stronę wejściową do Normalnej Formy C.
nfdnormalize(str : string):string
Konwertuje stronę wejściową do Normalnej Formy D.

Właściwości

charpattern:string
Wzór "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", który dokładnie pasuje do zero lub więcej sekwencji bajtów UTF-8, założając, że przedmiotem jest ważna ciągUTF-8.

Funkcje

char

string

Otrzymuje zero lub więcej punktów kodu jako liczby całkowite, przekształca każdy z nich do odpowiadającej sekwencji bajtów UTF-8 i zwraca ciąg ze łączeniem wszystkich tych sekwencji.

Parametry

codepoints: Tuple<number>

Zwroty

string

codes

function

Zwraca funkcję iteratora, aby konstrukcja:


for position, codepoint in utf8.codes(str) do
	-- ciało
end

zostanie powtórzony na wszystkich punktach kodu w ciągu struny str. Wywołuje błąd, jeśli spotka jakąkolwiek nieprawidłową sekwencję bajtów.

Parametry

str: string

Sznurek do iterowania.

Zwroty

function

string

number

codepoint

Tuple<number>

Zwraca punkty kodu (jako liczby całkowite) z wszystkich punktów kodu w podanym ciągu (str), które rozpoczynają się między pozycjami bajtów i i j (oba włączone).Domyślny dla i jest 1 i dla j jest i.Występuje błąd, jeśli spotka się z jakąkolwiek nieprawidłową sekwencją bajtów.

Parametry

str: string

i: number

Indeks punktu kodu, który należy pobrać z tej ciąg.

Wartość domyślna: 1

j: number

Indeks ostatniego punktu kodowania pomiędzy i a j, który zostanie zwrócony. Jeśli zostanie wykluczony, domyślnie zostanie użyta wartość i.

Wartość domyślna: i

Zwroty

Tuple<number>

len

number

Zwraca liczbę punktów kodu UTF-8 w ciągu struny str, która zaczyna się między pozycjami i i j (obie włączone).Domyślny dla i jest 1 , a dla j jest -1 .Jeśli znajdzie jakąkolwiek nieprawidłową sekwencję bajtów, zwraca wartość nil plus pozycję pierwszego nieprawidłowego bajtu.

Parametry

s: string

i: number

Początkowa pozycja.

Wartość domyślna: 1

j: number

Pozycja końcowa.

Wartość domyślna: -1

Zwroty

number

offset

number

Zwraca pozycję (w bajtach) gdzie rozpoczyna się kodowanie punktu n -ego kodu s (licząc od pozycji bajtu i )Negatywny n dostaje znaki przed pozycją i.Domyślny dla i jest 1 , gdy n jest nieujemny, a #s + 1 w przeciwnym razie, tak aby utf8.offset(s, -n) uzyskał odległość od znaku n z końca ciąg.Jeśli określony znak nie jest ani w temacie, ani bezpośrednio po jego kończyć, funkcja zwraca nil .

Parametry

s: string

n: number

i: number

Wartość domyślna: 1

Zwroty

number

graphemes

function

Zwraca funkcję iteratora, aby


for first, last in utf8.graphemes(str) do
	local grapheme = s:sub(first, last)
	-- ciało
end

będzie iterować klastry grafemów ciąg.

Konwertuje stronę wejściową do Normalnej Formy C, która próbuje przekształcić rozłożone znaki w skomponowane znaki.

Parametry

str: string

Zwroty

string

nfdnormalize

string

Konwertuje stronę wejściową do Normalnej Formy D, która próbuje rozbić skomponowane znaki na rozłożone znaki.

Parametry

str: string

Sznurek do przekonwersowania.

Zwroty

string

Właściwości

charpattern

string

Wzór "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", który dokładnie pasuje do zero lub więcej sekwencji bajtów UTF-8, założając, że przedmiotem jest ważna ciągUTF-8.

utf8

Podsumowanie

Funkcje

Właściwości

Funkcje

char

Parametry

Zwroty

codes

Parametry

Zwroty

codepoint

Parametry

Zwroty

len

Parametry

Zwroty

offset

Parametry

Zwroty

graphemes

Parametry

Zwroty

nfcnormalize

Parametry

Zwroty

nfdnormalize

Parametry

Zwroty

Właściwości

charpattern

Na tej stronie