utf8

Afficher les obsolètes

*Ce contenu est traduit en utilisant l'IA (Beta) et peut contenir des erreurs. Pour consulter cette page en anglais, clique ici.

Cette bibliothèque fournit un support de base pour l'encodage UTF-8 .Cette bibliothèque ne fournit aucun support pour l'Unicode autre que la gestion de l'encodage.Toute opération qui nécessite la signification d'un caractère, comme la classification des caractères, est en dehors de son champ d'application.

À moins qu'il n'en soit autrement dit, toutes les fonctions qui attendent une position de octet en tant que paramètre supposent que la position donnée est le début d'une séquence de octets ou une plus la longueur de la chaîne du sujet.Comme dans la bibliothèque de chaîne, les index négatifs comptent à partir de la fin de la chaîne.

Vous pouvez trouver un large catalogue de caractères utilisables ici .

Résumé

Fonctions

char(codepoints : Tuple<number>):string
Convertit zéro ou plus de points de code en séquences d'octets UTF-8.
codes(str : string):function,string,number
Retourne une fonction itératrice qui itère sur tous les points de code dans une chaîne donnée.
codepoint(str : string,i : number,j : number):Tuple<number>
Renvoie les points de code (en tant qu'entiers) de tous les points de code dans une chaîne donnée.
len(s : string,i : number,j : number):number
Retourne le nombre de points de code UTF-8 dans une chaîne donnée.
offset(s : string,n : number,i : number):number?
Renvoie la position (en octets) où la codification du point de code n de s (compte tenu de la position des octets i ) commence.
graphemes(str : string,i : number,j : number):function
Retourne une fonction itératrice qui itère sur les groupes de voyelles d'une chaîne donnée.
nfcnormalize(str : string):string
Convertit la chaîne d'entrée en norme C de forme normale.
nfdnormalize(str : string):string
Convertit la chaîne d'entrée en forme normale D.

Propriétés

charpattern:string
Le modèle "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" , qui correspond exactement à zéro ou plus de séquences d'octets UTF-8, en supposant que le sujet est une chaîne UTF-8 valide.

Fonctions

char

string

Reçoit zéro ou plus de points de code en tant qu'entiers, les convertit chacun en séquence d'octets UTF-8 correspondante et renvoie une chaîne avec la concaténation de toutes ces séquences.

Paramètres

codepoints: Tuple<number>

Retours

string

codes

function

Retourne une fonction itératrice afin que la construction :


for position, codepoint in utf8.codes(str) do
	-- corps
end

iterera sur tous les points de code dans la chaîne str. Il soulève une erreur si il rencontre une séquence de octets invalide.

Paramètres

str: string

La chaîne à itérer.

Retours

function

string

number

codepoint

Tuple<number>

Retourne les points de code (en tant qu'entiers) de tous les points de code dans la chaîne fournie (str) qui commencent entre les positions d'octet i et j (tous inclus).La valeur par défaut pour i est 1 et pour j est i .Il soulève une erreur si elle rencontre une séquence de octets invalide.

Paramètres

str: string

i: number

L'index du point de code qui doit être récupéré à partir de cette chaîne.

Valeur par défaut : 1

j: number

L'index du dernier point de code entre i et j qui sera renvoyé. S'il est exclu, cela sera par défaut la valeur de i .

Valeur par défaut : i

Retours

Tuple<number>

len

number

Retourne le nombre de points de code UTF-8 dans la chaîne str qui commence entre les positions i et j (tous inclus).La valeur par défaut pour i est 1 et pour j est -1 .S'il trouve une séquence de octet invalide, il renvoie une valeur nulle plus la position du premier octet invalide.

Paramètres

s: string

i: number

La position de départ.

Valeur par défaut : 1

j: number

La position finale.

Valeur par défaut : -1

Retours

number

offset

number

Renvoie la position (en octets) où la codification du point de code n de s (compte tenu de la position des octets i ) commence.Un caractère négatif n obtient des caractères avant la position i .La valeur par défaut pour i est 1 lorsque n est non négatif et #s + 1 autrement, afin que utf8.offset(s, -n) obtienne le décalage du caractère n de la fin de la chaîne.Si le personnage spécifié n'est ni dans le sujet ni immédiatement après sa terminer, la fonction renvoie nil .

Paramètres

s: string

n: number

i: number

Valeur par défaut : 1

Retours

number

graphemes

function

Retourne une fonction itératrice afin que


for first, last in utf8.graphemes(str) do
	local grapheme = s:sub(first, last)
	-- corps
end

iterera les groupes de graphèmes de la chaîne.

Convertit la chaîne d'entrée en norme C de forme normale, qui essaie de convertir les caractères décomposés en caractères composés.

Paramètres

str: string

Retours

string

nfdnormalize

string

Convertit la chaîne d'entrée en forme normale D, qui essaie de diviser les caractères composés en caractères décomposés.

Paramètres

str: string

La chaîne à convertir.

Retours

string

Propriétés

charpattern

string

Le modèle "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" , qui correspond exactement à zéro ou plus de séquence de octet UTF-8, en supposant que le sujet est une chaîne UTF-8 valide.

utf8

Résumé

Fonctions

Propriétés

Fonctions

char

Paramètres

Retours

codes

Paramètres

Retours

codepoint

Paramètres

Retours

len

Paramètres

Retours

offset

Paramètres

Retours

graphemes

Paramètres

Retours

nfcnormalize

Paramètres

Retours

nfdnormalize

Paramètres

Retours

Propriétés

charpattern

Sur cette page