utf8

Pokaż przestarzałe

*Ta zawartość została przetłumaczona przy użyciu narzędzi AI (w wersji beta) i może zawierać błędy. Aby wyświetlić tę stronę w języku angielskim, kliknij tutaj.

Ta biblioteka dostarcza podstawowe wsparcie dla kodowania UTF-8. Ta biblioteka nie dostarcza żadnego wsparcia dla Unicode, oprócz zarządzania kodowaniem. Każda operacja, która wymaga znaczenia postaci, tak jak klasyfikacja postaci, jest poza zakresem.

Chyba, że zostało to inaczej stwierdzone, wszystkie funkcje, które oczekują pozycji bajtowej jako parametru, założą, że podana pozycja jest początkiem bajtowej sequencji lub plus długości ciągstrungi. Jak w bibliotece stron, ujemne indeksy liczą się od końca ciąg.

Możesz znaleźć duży katalog używalnych znaków UTF-8tutaj .

Podsumowanie

Funkcje

Właściwości

  • Wzór "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", który pasuje dokładnie do zero lub więcej sekwencji bajtowych UTF-8, z założeniem, że przedmiot jest poprawną ciągbajtową UTF-8.

Funkcje

char

Otrzymuje zero lub więcej punktów kodu jako całe lub częściowe UTF-8, konwertuje każdy z nich do jego odpowiedniej kolejności UTF-8 i wypisuje strumień z kolejności wszystkich tych kolejności.

Parametry

codepoints: Tuple<number>

Zwroty

Zwraca funkcję inkrementatora, aby budowa:


for position, codepoint in utf8.codes(str) do
-- ciało
end

iteruje nad wszystkimi punktami kodu w stringu str . Występuje błąd, jeśli spełnia jakąkolwiek nieprawidłową kolejność bajtów.

Parametry

str: string

Lista znaków do wtórego przetwarzania.

codepoint

Zwraca kodeksy (jako całe liczby) z wszystkich kodeksów w dostarczonej linii (str) które zaczynają się między pozycjami bajtowymi i i j (obie włączone). Domyślnym dla i jest 1> 1

Parametry

str: string

Indeks kodeksu, który powinien być wyciągnięty z tego ciągu.

Wartość domyślna: 1

Indeks ostatniego punktu kodowego pomiędzy i i j , który zostanie zwrócony. Jeśli wykluczone, zostanie ustawiony na wartość i .

Wartość domyślna: i

Zwroty

Wywraca liczbę punktów kodu UTF-8 w ciągu str, które zaczyna się między pozycjami i i j (obie włącznie). Domyślnym dla 1> i1> jest 4> 1

Parametry

Początkowa pozycja.

Wartość domyślna: 1

Pozycja końcowa.

Wartość domyślna: -1

Zwroty

offset

Parametry

Wartość domyślna: 1

Zwroty

graphemes

Zwraca funkcję inkrementatora, aby


for first, last in utf8.graphemes(str) do
local grapheme = s:sub(first, last)
-- ciało
end

iteruje klustry grafenu strzyżonego.

Parametry

Zwroty

nfcnormalize

Konwertuje strumień wejścia do Normal Form C, która próbuje przekonwertować zdekomponowane znaki w skomponowane znaki.

Parametry

str: string

Zwroty

nfdnormalize

Konwertuje strumień wejścia do Normal Form D, która próbuje rozbić skomponowane znaki na znaki rozbitych.

Parametry

str: string

Strona do przekonwertowania.

Zwroty

Właściwości

charpattern

Wzór >[%z\x01#x7F\xC2\xF4] , który pasuje dokładnie do zero lub więcej bitowej kolejności UTF-8, z założeniem, że przedmiot jest ważną ciągUTF-8.