utf8
*Questo contenuto è tradotto usando AI (Beta) e potrebbe contenere errori. Per visualizzare questa pagina in inglese, clicca qui.
Questa libreria fornisce un supporto di base per l'encoding UTF-8 .Questa libreria non fornisce alcun supporto per l'Unicode diverso dalla gestione dell' encoding.Qualsiasi operazione che richieda il significato di un personaggio, come la classificazione dei personaggi, è al di fuori del suo campo.
A meno che non sia dichiarato diversamente, tutte le funzioni che attendono una posizione di byte come parametro suppongono che la posizione indicata sia l'inizio di una sequenza di byte o uno più la lunghezza della Stringaoggetto.Come nella libreria di stringhe, gli indici negativi contano dall'ultima parte della Stringa.
Puoi trovare un grande catalogo di caratteri utilizzabili UTF-8qui .
Sommario
Funzioni
Converte zero o più punti di codice in sequenze di byte UTF-8.
Restituisce una funzione iteratore che itera su tutti i punti di codice in una Stringadata.
Restituisce i codepoint (come interi) da tutti i codepoint in una Stringadata.
Restituisce il numero di punti di codice UTF-8 in una Stringadata.
Restituisce la posizione (in bytes) in cui inizia l'encoding del punto di codice n -th di s (a partire dalla posizione in byte i )
Restituisce una funzione iteratore che itera sui cluster di grafemi di una data Stringa.
Converte la stringa di input in Normale Forma C.
Converte la stringa di input in Normale Forma D.
Proprietà
Il modello "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", che corrisponde esattamente a zero o più sequenze di byte UTF-8, supponendo che il soggetto sia una StringaUTF-8 valida.
Funzioni
codes
Restituisce una funzione iteratore in modo che la costruzione:
for position, codepoint in utf8.codes(str) do-- corpoend
itererà su tutti i punti di codice nella stringa str. Raisa un errore se incontra qualsiasi sequenza di byte non valida.
Parametri
La stringa da iterare.
Restituisce i codepoint (come interi) da tutti i codepoint nella stringa fornita (str) che inizia tra le posizioni di byte i e j (entrambi inclusi).Il predefinito per i è 1 e per j è i .Solleva un errore se incontra qualsiasi sequenza di byte non valida.
Parametri
len
Restituisce il numero di punti di codice UTF-8 nella stringa str che inizia tra le posizioni i e j (entrambi inclusi).Il predefinito per i è 1 e per j è -1.Se trova qualsiasi sequenza di byte non valida, restituisce un valore nil più la posizione del primo byte non valido.
Parametri
Restituzioni
offset
Restituisce la posizione (in bytes) in cui inizia l'encoding del punto di codice n -th di s (a partire dalla posizione in byte i )Un negativo n ottiene i caratteri prima della posizione i .Il predefinito per i è 1 quando n è non negativo e #s + 1 altrimenti, in modo che utf8.offset(s, -n) ottenga lo spostamento del personaggio n dalla fine della Stringa.Se il personaggio specificato non è né nell'oggetto né subito dopo la sua Terminare, la funzione restituisce nil .
Restituzioni
Proprietà
charpattern
Il modello "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", che corrisponde esattamente a zero o più sequenza di byte UTF-8, supponendo che il soggetto sia una StringaUTF-8 valida.