utf8
*Este contenido se traduce usando la IA (Beta) y puede contener errores. Para ver esta página en inglés, haz clic en aquí.
Esta biblioteca proporciona un soporte básico para la codificación de UTF-8 . Esta biblioteca no proporciona ningún soporte para Unicode, excepto el manejo de la codificación. Cualquier operación que necesite el significado de un carácter, como la clasificación de carácteres, está fuera de su alcance.
A menos que se indique de otra manera, todas las funciones que esperan una posición de bytes como parámetro asumen que la posición proporcionada es el comienzo de una secuencia de bytes o un plus de la longitud de la cadena de sujeto. Como en la biblioteca de cadenas, los índices negativos cuentan desde el final de la cadena.
Puede encontrar un gran catálogo de personajes UTF-8 útiles aquí .
Resumen
Funciones
Convierte uno o más puntos de código en secuencias de UTF-8.
Devuelve una función de iterador que itera sobre todos los puntos de código en una determinada cadena.
Devuelve los puntos de código (como números enteros) de todos los puntos de código en una determinada cadena.
Devuelve el número de puntos de código UTF-8 en una determinada cadena.
Devuelve la posición (en bytes) donde se encuentra el código de encodado del n - punto de código de s (contando desde la posición de bytes i).
Devuelve una función de iterador que itera sobre los grupos de clics de un determinado cadena.
Convierte la cadena de entrada a Normal Form C.
Convierte la cadena de entrada a Normal Form D.
Propiedades
El patrón "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", que coincide exactamente con secuencias de bytes UTF-8, admitiendo que el sujeto es una cadena UTF-8 válida.
Funciones
codes
Restablece una función de iterador para que la construcción:
for position, codepoint in utf8.codes(str) do-- cuerpoend
iterará sobre todos los puntos de código en la cadena str . Se produce un error si se cumple cualquier secuencia de caracteres inválida.
Parámetros
La cadena para repetir.
Restaura los puntos de código (como números) de todos los puntos de código en la cadena de texto proporcionada (str) que comienza entre posiciones de bytes i y j (ambos incluidos). El valor predeterminado para i es 1> 11> y para
Parámetros
len
Devuelve el número de puntos de código UTF-8 en la cadena str que comienza entre posiciones i y j (ambas incluyentes). El valor predeterminado para 1> i1> es 4> 14> y para 7>
Parámetros
Devuelve
Propiedades
charpattern
El patrón "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", que coincide exactamente con la secuencia de bytes UTF-8, suponiendo que el sujeto es una cadena UTF-8 válida.