utf8

Afficher les obsolètes

*Ce contenu est traduit en utilisant l'IA (Beta) et peut contenir des erreurs. Pour consulter cette page en anglais, clique ici.

Cette bibliothèque fournit un support de base pour l'encodage UTF-8. Cette bibliothèque ne fournit aucun support pour l'Unicode autre que le traitement de l'encodage. Toute opération qui nécessite la signification d'un caractère, telle que la classeification des caractères, est hors de son champ d'application.

À moins qu'indiqué autrement, toutes les fonctions qui attendent une position de octet en tant que paramètre supposent que la position donnée est soit le début d'une séquence d'octets ou un plus la longueur de la chaîne de sujet. Comme dans la bibliothèque de chaînes, les index négatifs comptent à partir de la fin de la chaîne.

Vous pouvez trouver un grand catalogue de UTF-8 personnages ici .

Résumé

Fonctions

Propriétés

  • Le motif "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", qui correspond exactement à zéro ou plus de séquences de octets UTF-8, en supposant que le sujet est une chaîne UTF-8 valide.

Fonctions

char

Reçoit zéro ou plus de points de code en tant que nombres inteurs, convertit chacun en sa séquence UTF-8 correspondante et renvoie une chaîne avec la séquence de tous ces points.

Paramètres

codepoints: Tuple<number>

Retours

Renvoie une fonction d'itérateur afin que la construction :


for position, codepoint in utf8.codes(str) do
-- corps
end

itérera sur tous les points de code dans la chaîne str. Il lève une erreur si il rencontre n'importe quelle séquence de octets invalide.

Paramètres

str: string

La chaîne à itérer.

codepoint

Renvoie les points de code (en tant que nombres) de tous les points de code dans la chaîne fournie (str) qui commencent entre les positions de bytes i et j (tous les deux inclus). La valeur par défaut pour i est 1> 11> et pour 4> j4> est 7>

Paramètres

str: string

L'index du code point que vous devez récupérer à partir de cette chaîne.

Valeur par défaut : 1

L'index du dernier point de code entre i et j qui sera renvoyé. Si exclu, cela s'appliquera à la valeur de i.

Valeur par défaut : i

Retours

Renvoie le nombre de points de code UTF-8 dans la chaîne str qui commence entre les positions i et j (tous inclus). La valeur par défaut pour 1> i1> est 4> 14> et pour 7> j7> est

Paramètres

La position de départ.

Valeur par défaut : 1

La position de fin.

Valeur par défaut : -1

Retours

offset

Paramètres

Valeur par défaut : 1

Retours

graphemes

Renvoie une fonction d'itérateur afin que


for first, last in utf8.graphemes(str) do
local grapheme = s:sub(first, last)
-- corps
end

itérera les groupes de cluster du grafe de la chaîne.

Paramètres

Retours

nfcnormalize

Convertit la chaîne d'entrée en Normal Form C, qui essaie de convertir les personnages décomposés en personnages composés.

Paramètres

str: string

Retours

nfdnormalize

Convertit la chaîne d'entrée en normale forme D, qui essaie de diviser les personnages composés en personnages décomposés.

Paramètres

str: string

La chaîne à convertir.

Retours

Propriétés

charpattern

Le motif "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", qui correspond exactement à la séquence de octets UTF-8, en supposant que le sujet est une chaîne UTF-8 valide.