utf8

Mostrar obsoleto

*Este contenido se traduce usando la IA (Beta) y puede contener errores. Para ver esta página en inglés, haz clic en aquí.

Esta biblioteca proporciona un soporte básico para la codificación de UTF-8 . Esta biblioteca no proporciona ningún soporte para Unicode, excepto el manejo de la codificación. Cualquier operación que necesite el significado de un carácter, como la clasificación de carácteres, está fuera de su alcance.

A menos que se indique de otra manera, todas las funciones que esperan una posición de bytes como parámetro asumen que la posición proporcionada es el comienzo de una secuencia de bytes o un plus de la longitud de la cadena de sujeto. Como en la biblioteca de cadenas, los índices negativos cuentan desde el final de la cadena.

Puede encontrar un gran catálogo de personajes UTF-8 útiles aquí .

Resumen

Funciones

Propiedades

  • El patrón "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", que coincide exactamente con secuencias de bytes UTF-8, admitiendo que el sujeto es una cadena UTF-8 válida.

Funciones

char

Recibe uno o más puntos de código como números enteros, los convierte en su secuencia de bytes UTF-8 correspondiente y devuelve una cadena con la concatenación de todas estas secuencias.

Parámetros

codepoints: Tuple<number>

Devuelve

Restablece una función de iterador para que la construcción:


for position, codepoint in utf8.codes(str) do
-- cuerpo
end

iterará sobre todos los puntos de código en la cadena str . Se produce un error si se cumple cualquier secuencia de caracteres inválida.

Parámetros

str: string

La cadena para repetir.

codepoint

Restaura los puntos de código (como números) de todos los puntos de código en la cadena de texto proporcionada (str) que comienza entre posiciones de bytes i y j (ambos incluidos). El valor predeterminado para i es 1> 11> y para

Parámetros

str: string

El índice del punto de código que debe ser obtenido de esta cadena.

Valor predeterminado: 1

El índice del último punto de código entre i y j que se devolverá. Si se excluye, esto se predeterminará por el valor de i .

Valor predeterminado: i

Devuelve

Devuelve el número de puntos de código UTF-8 en la cadena str que comienza entre posiciones i y j (ambas incluyentes). El valor predeterminado para 1> i1> es 4> 14> y para 7>

Parámetros

La posición de partida.

Valor predeterminado: 1

La posición de finalización.

Valor predeterminado: -1

Devuelve

offset

Parámetros

Valor predeterminado: 1

Devuelve

graphemes

Devuelve una función de iterador para que


for first, last in utf8.graphemes(str) do
local grapheme = s:sub(first, last)
-- cuerpo
end

iterará los grupos de clústeres de la cadena.

Parámetros

Devuelve

nfcnormalize

Convierte la cadena de entrada a Normal Form C, que intenta convertir los personajes descompuestos en personajes compuestos.

Parámetros

str: string

Devuelve

nfdnormalize

Convierte la cadena de entrada a Normal Form D, que intenta dividir los personajes compuestos en personajes descompuestos.

Parámetros

str: string

La cadena para convertir.

Devuelve

Propiedades

charpattern

El patrón "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", que coincide exactamente con la secuencia de bytes UTF-8, suponiendo que el sujeto es una cadena UTF-8 válida.