utf8
*Ce contenu est traduit en utilisant l'IA (Beta) et peut contenir des erreurs. Pour consulter cette page en anglais, clique ici.
Cette bibliothèque fournit un support de base pour l'encodage UTF-8. Cette bibliothèque ne fournit aucun support pour l'Unicode autre que le traitement de l'encodage. Toute opération qui nécessite la signification d'un caractère, telle que la classeification des caractères, est hors de son champ d'application.
À moins qu'indiqué autrement, toutes les fonctions qui attendent une position de octet en tant que paramètre supposent que la position donnée est soit le début d'une séquence d'octets ou un plus la longueur de la chaîne de sujet. Comme dans la bibliothèque de chaînes, les index négatifs comptent à partir de la fin de la chaîne.
Vous pouvez trouver un grand catalogue de UTF-8 personnages ici .
Résumé
Fonctions
Convertit des points de code zéro ou plus en séquences UTF-8.
Renvoie une fonction d'itérateur qui itère sur tous les points de code dans une chaîne donnée.
Renvoie les points de code (comme des nombres) de tous les points de code dans une chaîne donnée.
Renvoie le nombre de points de code UTF-8 dans une chaîne donnée.
Renvoie la position (en octets) où l'encodage du code n -th de s (compte à partir de la position de octet s ) commence.
Renvoie une fonction d'itérateur qui itère sur les groupes de cluster du drapeau d'une chaîne donnée.
Convertit la chaîne d'entrée en Normal Form C.
Convertit la chaîne d'entrée en forme normale D.
Propriétés
Le motif "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", qui correspond exactement à zéro ou plus de séquences de octets UTF-8, en supposant que le sujet est une chaîne UTF-8 valide.
Fonctions
codes
Renvoie une fonction d'itérateur afin que la construction :
for position, codepoint in utf8.codes(str) do-- corpsend
itérera sur tous les points de code dans la chaîne str. Il lève une erreur si il rencontre n'importe quelle séquence de octets invalide.
Paramètres
La chaîne à itérer.
Renvoie les points de code (en tant que nombres) de tous les points de code dans la chaîne fournie (str) qui commencent entre les positions de bytes i et j (tous les deux inclus). La valeur par défaut pour i est 1> 11> et pour 4> j4> est 7>
Paramètres
len
Renvoie le nombre de points de code UTF-8 dans la chaîne str qui commence entre les positions i et j (tous inclus). La valeur par défaut pour 1> i1> est 4> 14> et pour 7> j7> est
Paramètres
Retours
Propriétés
charpattern
Le motif "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", qui correspond exactement à la séquence de octets UTF-8, en supposant que le sujet est une chaîne UTF-8 valide.