utf8
*Ta zawartość została przetłumaczona przy użyciu narzędzi AI (w wersji beta) i może zawierać błędy. Aby wyświetlić tę stronę w języku angielskim, kliknij tutaj.
Ta biblioteka dostarcza podstawowe wsparcie dla kodowania UTF-8. Ta biblioteka nie dostarcza żadnego wsparcia dla Unicode, oprócz zarządzania kodowaniem. Każda operacja, która wymaga znaczenia postaci, tak jak klasyfikacja postaci, jest poza zakresem.
Chyba, że zostało to inaczej stwierdzone, wszystkie funkcje, które oczekują pozycji bajtowej jako parametru, założą, że podana pozycja jest początkiem bajtowej sequencji lub plus długości ciągstrungi. Jak w bibliotece stron, ujemne indeksy liczą się od końca ciąg.
Możesz znaleźć duży katalog używalnych znaków UTF-8tutaj .
Podsumowanie
Funkcje
Konwertuje zero lub więcej kodeksów do UTF-8 sEQUENCE.
Zwraca funkcję inkrementora, która inkrementuje wszystkie kody w określonym ciągu znaków.
Zwraca kody (jako całe liczby) z wszystkich kodów w określonym ciąg.
Wyświetla liczbę UTF-8 punktów kodu w określonej ciąg.
Zwraca pozycję (w bajtach), w której kodowanie n -th kodu punktu końca s (licząc od pozycji bajtowej i ) zaczyna się.
Zwraca funkcję inkrementora, która przechodzi przez klustry grafenowe danej ciąg.
Konwertuje wpisową strungę do Normal Form C.
Konwertuje wpisową strungę do Normal Form D.
Właściwości
Wzór "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", który pasuje dokładnie do zero lub więcej sekwencji bajtowych UTF-8, z założeniem, że przedmiot jest poprawną ciągbajtową UTF-8.
Funkcje
codes
Zwraca funkcję inkrementatora, aby budowa:
for position, codepoint in utf8.codes(str) do-- ciałoend
iteruje nad wszystkimi punktami kodu w stringu str . Występuje błąd, jeśli spełnia jakąkolwiek nieprawidłową kolejność bajtów.
Parametry
Lista znaków do wtórego przetwarzania.
Zwraca kodeksy (jako całe liczby) z wszystkich kodeksów w dostarczonej linii (str) które zaczynają się między pozycjami bajtowymi i i j (obie włączone). Domyślnym dla i jest 1> 1
Parametry
Właściwości
charpattern
Wzór >[%z\x01#x7F\xC2\xF4] , który pasuje dokładnie do zero lub więcej bitowej kolejności UTF-8, z założeniem, że przedmiot jest ważną ciągUTF-8.