utf8

Visualizza obsoleti

*Questo contenuto è tradotto usando AI (Beta) e potrebbe contenere errori. Per visualizzare questa pagina in inglese, clicca qui.

Questa libreria fornisce un supporto di base per l'encoding UTF-8 .Questa libreria non fornisce alcun supporto per l'Unicode diverso dalla gestione dell' encoding.Qualsiasi operazione che richieda il significato di un personaggio, come la classificazione dei personaggi, è al di fuori del suo campo.

A meno che non sia dichiarato diversamente, tutte le funzioni che attendono una posizione di byte come parametro suppongono che la posizione indicata sia l'inizio di una sequenza di byte o uno più la lunghezza della Stringaoggetto.Come nella libreria di stringhe, gli indici negativi contano dall'ultima parte della Stringa.

Puoi trovare un grande catalogo di caratteri utilizzabili UTF-8qui .

Sommario

Funzioni

Proprietà

  • Il modello "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", che corrisponde esattamente a zero o più sequenze di byte UTF-8, supponendo che il soggetto sia una StringaUTF-8 valida.

Funzioni

char

Riceve zero o più punti di codice come interi, converte ciascuno nella sua corrispondente sequenza di byte UTF-8 e restituisce una stringa con la concatenazione di tutte queste sequenze.

Parametri

codepoints: Tuple<number>

Restituzioni

Restituisce una funzione iteratore in modo che la costruzione:


for position, codepoint in utf8.codes(str) do
-- corpo
end

itererà su tutti i punti di codice nella stringa str. Raisa un errore se incontra qualsiasi sequenza di byte non valida.

Parametri

str: string

La stringa da iterare.

codepoint

Restituisce i codepoint (come interi) da tutti i codepoint nella stringa fornita (str) che inizia tra le posizioni di byte i e j (entrambi inclusi).Il predefinito per i è 1 e per j è i .Solleva un errore se incontra qualsiasi sequenza di byte non valida.

Parametri

str: string

L'indice del punto di codice che deve essere recuperato da questa Stringa.

Valore predefinito: 1

L'indice dell'ultimo punto di codice tra i e j che verrà restituito. Se escluso, questo verrà impostato sul valore di i .

Valore predefinito: i

Restituzioni

Restituisce il numero di punti di codice UTF-8 nella stringa str che inizia tra le posizioni i e j (entrambi inclusi).Il predefinito per i è 1 e per j è -1.Se trova qualsiasi sequenza di byte non valida, restituisce un valore nil più la posizione del primo byte non valido.

Parametri

La posizione di partenza.

Valore predefinito: 1

La posizione finale.

Valore predefinito: -1

Restituzioni

offset

Restituisce la posizione (in bytes) in cui inizia l'encoding del punto di codice n -th di s (a partire dalla posizione in byte i )Un negativo n ottiene i caratteri prima della posizione i .Il predefinito per i è 1 quando n è non negativo e #s + 1 altrimenti, in modo che utf8.offset(s, -n) ottenga lo spostamento del personaggio n dalla fine della Stringa.Se il personaggio specificato non è né nell'oggetto né subito dopo la sua Terminare, la funzione restituisce nil .

Parametri

Valore predefinito: 1

Restituzioni

graphemes

Restituisce una funzione iteratore in modo che


for first, last in utf8.graphemes(str) do
local grapheme = s:sub(first, last)
-- corpo
end

itererà i cluster di grafemi della stringa.

Parametri

Restituzioni

nfcnormalize

Converte la stringa di input in Normale Forma C, che tenta di convertire i caratteri decomposti in caratteri composti.

Parametri

str: string

Restituzioni

nfdnormalize

Converte la stringa di input in Normale Forma D, che tenta di dividere i caratteri composti in caratteri decomposti.

Parametri

str: string

La stringa da convertire.

Restituzioni

Proprietà

charpattern

Il modello "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", che corrisponde esattamente a zero o più sequenza di byte UTF-8, supponendo che il soggetto sia una StringaUTF-8 valida.