utf8

Mostrar obsoleto

*Este conteúdo é traduzido por IA (Beta) e pode conter erros. Para ver a página em inglês, clique aqui.

Esta biblioteca proporciona un soporte básico para la codificación de UTF-8 . Esta biblioteca no proporciona ningún soporte para Unicode, excepto el manejo de la codificación. Cualquier operación que necesite el significado de un carácter, como la clasificación de carácteres, está fuera de su alcance.

A menos que se indique de otra manera, todas las funciones que esperan una posición de bytes como parámetro asumen que la posición proporcionada es el comienzo de una secuencia de bytes o un plus de la longitud de la cadena de sujeto. Como en la biblioteca de cadenas, los índices negativos cuentan desde el final de la cadena.

Puede encontrar un gran catálogo de personajes UTF-8 útiles aquí .

Resumo

Funções

Propriedades

  • El patrón "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", que coincide exactamente con secuencias de bytes UTF-8, admitiendo que el sujeto es una cadena UTF-8 válida.

Funções

char

Recibe uno o más puntos de código como números enteros, los convierte en su secuencia de bytes UTF-8 correspondiente y devuelve una cadena con la concatenación de todas estas secuencias.

Parâmetros

codepoints: Tuple<number>

Devolução

Restablece una función de iterador para que la construcción:


for position, codepoint in utf8.codes(str) do
-- cuerpo
end

iterará sobre todos los puntos de código en la cadena str . Se produce un error si se cumple cualquier secuencia de caracteres inválida.

Parâmetros

str: string

La cadena para repetir.

codepoint

Restaura los puntos de código (como números) de todos los puntos de código en la cadena de texto proporcionada (str) que comienza entre posiciones de bytes i y j (ambos incluidos). El valor predeterminado para i es 1> 11> y para

Parâmetros

str: string

El índice del punto de código que debe ser obtenido de esta cadena.

Valor Padrão: 1

El índice del último punto de código entre i y j que se devolverá. Si se excluye, esto se predeterminará por el valor de i .

Valor Padrão: i

Devolução

Devuelve el número de puntos de código UTF-8 en la cadena str que comienza entre posiciones i y j (ambas incluyentes). El valor predeterminado para 1> i1> es 4> 14> y para 7>

Parâmetros

La posición de partida.

Valor Padrão: 1

La posición de finalización.

Valor Padrão: -1

Devolução

offset

Parâmetros

Valor Padrão: 1

Devolução

graphemes

Devuelve una función de iterador para que


for first, last in utf8.graphemes(str) do
local grapheme = s:sub(first, last)
-- cuerpo
end

iterará los grupos de clústeres de la cadena.

Parâmetros

Devolução

nfcnormalize

Convierte la cadena de entrada a Normal Form C, que intenta convertir los personajes descompuestos en personajes compuestos.

Parâmetros

str: string

Devolução

nfdnormalize

Convierte la cadena de entrada a Normal Form D, que intenta dividir los personajes compuestos en personajes descompuestos.

Parâmetros

str: string

La cadena para convertir.

Devolução

Propriedades

charpattern

El patrón "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", que coincide exactamente con la secuencia de bytes UTF-8, suponiendo que el sujeto es una cadena UTF-8 válida.