utf8
*Ta zawartość została przetłumaczona przy użyciu narzędzi AI (w wersji beta) i może zawierać błędy. Aby wyświetlić tę stronę w języku angielskim, kliknij tutaj.
Ta biblioteka zapewnia podstawowe wsparcie dla UTF-8 kodowania.Ta biblioteka nie zapewnia żadnego wsparcia dla Unicode innego niż obsługa kodowania.Każda operacja, która wymaga znaczenia znaku, takie jak klasyfikacja znaków, jest poza jej zakresem.
Chyba że zaznaczono inaczej, wszystkie funkcje, które oczekują pozycji bajtu jako parametru, zakładają, że podana pozycja jest albo początkiem sekwencji bajtów, albo jedną plus długością ciągprzedmiotu.Podobnie jak w bibliotece strun, indeksy ujemne liczą od końca ciąg.
Możesz znaleźć duży katalog używalnych UTF-8 znaków tutaj .
Podsumowanie
Funkcje
Konwertuje zero lub więcej punktów kodu na sekwencje bajtów UTF-8.
Zwraca funkcję iteratora, która iteruje po wszystkich punktach kodu w danym ciągu.
Zwraca punkty kodu (jako liczby całkowite) z wszystkich punktów kodu w danym ciągu.
Zwraca liczbę punktów kodu UTF-8 w danym ciągu.
Zwraca pozycję (w bajtach) gdzie rozpoczyna się kodowanie punktu n -ego kodu s (licząc od pozycji bajtu i )
Zwraca funkcję iteratora, która iteruje nad grupami grafemów danego ciągu.
Konwertuje stronę wejściową do Normalnej Formy C.
Konwertuje stronę wejściową do Normalnej Formy D.
Właściwości
Wzór "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", który dokładnie pasuje do zero lub więcej sekwencji bajtów UTF-8, założając, że przedmiotem jest ważna ciągUTF-8.
Funkcje
codes
Zwraca funkcję iteratora, aby konstrukcja:
for position, codepoint in utf8.codes(str) do-- ciałoend
zostanie powtórzony na wszystkich punktach kodu w ciągu struny str. Wywołuje błąd, jeśli spotka jakąkolwiek nieprawidłową sekwencję bajtów.
Parametry
Sznurek do iterowania.
Zwraca punkty kodu (jako liczby całkowite) z wszystkich punktów kodu w podanym ciągu (str), które rozpoczynają się między pozycjami bajtów i i j (oba włączone).Domyślny dla i jest 1 i dla j jest i.Występuje błąd, jeśli spotka się z jakąkolwiek nieprawidłową sekwencją bajtów.
Parametry
len
Zwraca liczbę punktów kodu UTF-8 w ciągu struny str, która zaczyna się między pozycjami i i j (obie włączone).Domyślny dla i jest 1 , a dla j jest -1 .Jeśli znajdzie jakąkolwiek nieprawidłową sekwencję bajtów, zwraca wartość nil plus pozycję pierwszego nieprawidłowego bajtu.
Parametry
Zwroty
offset
Zwraca pozycję (w bajtach) gdzie rozpoczyna się kodowanie punktu n -ego kodu s (licząc od pozycji bajtu i )Negatywny n dostaje znaki przed pozycją i.Domyślny dla i jest 1 , gdy n jest nieujemny, a #s + 1 w przeciwnym razie, tak aby utf8.offset(s, -n) uzyskał odległość od znaku n z końca ciąg.Jeśli określony znak nie jest ani w temacie, ani bezpośrednio po jego kończyć, funkcja zwraca nil .
Zwroty
Właściwości
charpattern
Wzór "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", który dokładnie pasuje do zero lub więcej sekwencji bajtów UTF-8, założając, że przedmiotem jest ważna ciągUTF-8.