utf8

Afficher les obsolètes

*Ce contenu est traduit en utilisant l'IA (Beta) et peut contenir des erreurs. Pour consulter cette page en anglais, clique ici.

Cette bibliothèque fournit un support de base pour l'encodage UTF-8 .Cette bibliothèque ne fournit aucun support pour l'Unicode autre que la gestion de l'encodage.Toute opération qui nécessite la signification d'un caractère, comme la classification des caractères, est en dehors de son champ d'application.

À moins qu'il n'en soit autrement dit, toutes les fonctions qui attendent une position de octet en tant que paramètre supposent que la position donnée est le début d'une séquence de octets ou une plus la longueur de la chaîne du sujet.Comme dans la bibliothèque de chaîne, les index négatifs comptent à partir de la fin de la chaîne.

Vous pouvez trouver un large catalogue de caractères utilisables ici .

Résumé

Fonctions

Propriétés

  • Le modèle "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" , qui correspond exactement à zéro ou plus de séquences d'octets UTF-8, en supposant que le sujet est une chaîne UTF-8 valide.

Fonctions

char

Reçoit zéro ou plus de points de code en tant qu'entiers, les convertit chacun en séquence d'octets UTF-8 correspondante et renvoie une chaîne avec la concaténation de toutes ces séquences.

Paramètres

codepoints: Tuple<number>

Retours

Retourne une fonction itératrice afin que la construction :


for position, codepoint in utf8.codes(str) do
-- corps
end

iterera sur tous les points de code dans la chaîne str. Il soulève une erreur si il rencontre une séquence de octets invalide.

Paramètres

str: string

La chaîne à itérer.

codepoint

Retourne les points de code (en tant qu'entiers) de tous les points de code dans la chaîne fournie (str) qui commencent entre les positions d'octet i et j (tous inclus).La valeur par défaut pour i est 1 et pour j est i .Il soulève une erreur si elle rencontre une séquence de octets invalide.

Paramètres

str: string

L'index du point de code qui doit être récupéré à partir de cette chaîne.

Valeur par défaut : 1

L'index du dernier point de code entre i et j qui sera renvoyé. S'il est exclu, cela sera par défaut la valeur de i .

Valeur par défaut : i

Retours

Retourne le nombre de points de code UTF-8 dans la chaîne str qui commence entre les positions i et j (tous inclus).La valeur par défaut pour i est 1 et pour j est -1 .S'il trouve une séquence de octet invalide, il renvoie une valeur nulle plus la position du premier octet invalide.

Paramètres

La position de départ.

Valeur par défaut : 1

La position finale.

Valeur par défaut : -1

Retours

offset

Renvoie la position (en octets) où la codification du point de code n de s (compte tenu de la position des octets i ) commence.Un caractère négatif n obtient des caractères avant la position i .La valeur par défaut pour i est 1 lorsque n est non négatif et #s + 1 autrement, afin que utf8.offset(s, -n) obtienne le décalage du caractère n de la fin de la chaîne.Si le personnage spécifié n'est ni dans le sujet ni immédiatement après sa terminer, la fonction renvoie nil .

Paramètres

Valeur par défaut : 1

Retours

graphemes

Retourne une fonction itératrice afin que


for first, last in utf8.graphemes(str) do
local grapheme = s:sub(first, last)
-- corps
end

iterera les groupes de graphèmes de la chaîne.

Paramètres

Retours

nfcnormalize

Convertit la chaîne d'entrée en norme C de forme normale, qui essaie de convertir les caractères décomposés en caractères composés.

Paramètres

str: string

Retours

nfdnormalize

Convertit la chaîne d'entrée en forme normale D, qui essaie de diviser les caractères composés en caractères décomposés.

Paramètres

str: string

La chaîne à convertir.

Retours

Propriétés

charpattern

Le modèle "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" , qui correspond exactement à zéro ou plus de séquence de octet UTF-8, en supposant que le sujet est une chaîne UTF-8 valide.