utf8
*Ce contenu est traduit en utilisant l'IA (Beta) et peut contenir des erreurs. Pour consulter cette page en anglais, clique ici.
Cette bibliothèque fournit un support de base pour l'encodage UTF-8 .Cette bibliothèque ne fournit aucun support pour l'Unicode autre que la gestion de l'encodage.Toute opération qui nécessite la signification d'un caractère, comme la classification des caractères, est en dehors de son champ d'application.
À moins qu'il n'en soit autrement dit, toutes les fonctions qui attendent une position de octet en tant que paramètre supposent que la position donnée est le début d'une séquence de octets ou une plus la longueur de la chaîne du sujet.Comme dans la bibliothèque de chaîne, les index négatifs comptent à partir de la fin de la chaîne.
Vous pouvez trouver un large catalogue de caractères utilisables ici .
Résumé
Fonctions
Convertit zéro ou plus de points de code en séquences d'octets UTF-8.
Retourne une fonction itératrice qui itère sur tous les points de code dans une chaîne donnée.
Renvoie les points de code (en tant qu'entiers) de tous les points de code dans une chaîne donnée.
Retourne le nombre de points de code UTF-8 dans une chaîne donnée.
Renvoie la position (en octets) où la codification du point de code n de s (compte tenu de la position des octets i ) commence.
Retourne une fonction itératrice qui itère sur les groupes de voyelles d'une chaîne donnée.
Convertit la chaîne d'entrée en norme C de forme normale.
Convertit la chaîne d'entrée en forme normale D.
Propriétés
Le modèle "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" , qui correspond exactement à zéro ou plus de séquences d'octets UTF-8, en supposant que le sujet est une chaîne UTF-8 valide.
Fonctions
codes
Retourne une fonction itératrice afin que la construction :
for position, codepoint in utf8.codes(str) do-- corpsend
iterera sur tous les points de code dans la chaîne str. Il soulève une erreur si il rencontre une séquence de octets invalide.
Paramètres
La chaîne à itérer.
Retourne les points de code (en tant qu'entiers) de tous les points de code dans la chaîne fournie (str) qui commencent entre les positions d'octet i et j (tous inclus).La valeur par défaut pour i est 1 et pour j est i .Il soulève une erreur si elle rencontre une séquence de octets invalide.
Paramètres
len
Retourne le nombre de points de code UTF-8 dans la chaîne str qui commence entre les positions i et j (tous inclus).La valeur par défaut pour i est 1 et pour j est -1 .S'il trouve une séquence de octet invalide, il renvoie une valeur nulle plus la position du premier octet invalide.
Paramètres
Retours
offset
Renvoie la position (en octets) où la codification du point de code n de s (compte tenu de la position des octets i ) commence.Un caractère négatif n obtient des caractères avant la position i .La valeur par défaut pour i est 1 lorsque n est non négatif et #s + 1 autrement, afin que utf8.offset(s, -n) obtienne le décalage du caractère n de la fin de la chaîne.Si le personnage spécifié n'est ni dans le sujet ni immédiatement après sa terminer, la fonction renvoie nil .
Retours
Propriétés
charpattern
Le modèle "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" , qui correspond exactement à zéro ou plus de séquence de octet UTF-8, en supposant que le sujet est une chaîne UTF-8 valide.