utf8

Veraltete anzeigen

*Dieser Inhalt wurde mit KI (Beta) übersetzt und kann Fehler enthalten. Um diese Seite auf Englisch zu sehen, klicke hier.

Diese Bibliothek bietet grundlegende Unterstützung für UTF-8 Encodierung.Diese Bibliothek bietet keine Unterstützung für Unicode außer der Verarbeitung der Encodierung.Jede Operation, die die Bedeutung eines Charakters benötigt, wie z. B. die Klassifizierung eines Charakters, liegt außerhalb ihres Bereichs.

Es sei denn, anders angegeben, erwarten alle Funktionen, die eine Byte-Position als Parameter erwarten, dass die angegebene Position entweder der Beginn einer Bytesequenz oder ein Plus der Länge des Themen strings ist.Wie in der String-Bibliothek zählen negative Indizes vom Ende des Strings.

Sie können einen großen Katalog von verwendbaren UTF-8 Zeichen hier finden.

Zusammenfassung

Funktionen

char(codepoints : Tuple<number>):string
Wandelt Null oder mehr Codepunkte in UTF-8-Byte-Sequenzen um.
codes(str : string):function,string,number
Gibt eine Iterationsfunktion zurück, die über alle Codepunkte in einer bestimmten Stringiteriert.
codepoint(str : string,i : number,j : number):Tuple<number>
Gibt die Codepunkte (als Ganzzahlen) von allen Codepunkten in einem bestimmten String zurück.
len(s : string,i : number,j : number):number
Gibt die Anzahl der UTF-8-Codepunkte in einem bestimmten String zurück.
offset(s : string,n : number,i : number):number?
Gibt die Position (in Bytes) zurück, an der die Verschlüsselung des n Codepunkts von s (ab Byteposition i) beginnt.
graphemes(str : string,i : number,j : number):function
Gibt eine Iterationsfunktion zurück, die über die Graphem-Cluster einer bestimmten Stringiteriert.
nfcnormalize(str : string):string
Wandelt die Eingabestreuze in die normale Form C um.
nfdnormalize(str : string):string
Wandelt die Eingabestreuze in die normale Form D um.

Eigenschaften

charpattern:string
Das Muster "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", das genau null oder mehr UTF-8-Byte-Sequenzen übereinstimmt, unter der Annahme, dass das Thema ein gültiger UTF-8-String ist.

Funktionen

char

string

Erhält Null oder mehr Codepunkte als Ganzzahlen, wandelt jeden in seine entsprechende UTF-8-Byte-Sequenz um und gibt eine Zeichenkette mit der Kombination aller dieser Sequenzen zurück.

Parameter

codepoints: Tuple<number>

Rückgaben

string

codes

function

Gibt eine Iterationsfunktion zurück, sodass die Konstruktion:


for position, codepoint in utf8.codes(str) do
	-- körper
end

Wird sich über alle Codepunkte in der Zeichenkette str wiederholen. Es erzeugt einen Fehler, wenn es eine ungültige Bytesequenz trifft.

Parameter

str: string

Der String, über den iteriert wird.

Rückgaben

function

string

number

codepoint

Tuple<number>

Gibt die Codepunkte (als Ganzzahlen) von allen Codepunkten in dem bereitgestellten String (str) zurück, die zwischen den Byte-Positionen i und j beginnen (beide enthalten).Der Standard für i ist 1 und für j ist i .Es erzeugt einen Fehler, wenn es eine ungültige Bytesequenz trifft.

Parameter

str: string

i: number

Der Index des Codepoints, der aus dieser Stringabgerufen werden soll.

Standardwert: 1

j: number

Der Index des letzten Codepoints zwischen i und j, der zurückgegeben wird. Wenn ausgeschlossen, wird dieser auf den Wert von i zurückgesetzt.

Standardwert: i

Rückgaben

Tuple<number>

len

number

Gibt die Anzahl der UTF-8-Codepunkte in der Zeichenkette str an, die zwischen den Positionen i und j (beide inclusive) beginnt.Der Standard für i ist 1 und für j ist -1 .Wenn es eine ungültige Bytesequenz findet, gibt es einen Nullwert plus die Position des ersten ungültigen Bytes zurück.

Parameter

s: string

i: number

Die Startposition.

Standardwert: 1

j: number

Die abschließende Position.

Standardwert: -1

Rückgaben

number

offset

number

Gibt die Position (in Bytes) zurück, an der die Verschlüsselung des n Codepunkts von s (ab Byteposition i) beginnt.Ein negatives n bekommt Zeichen vor der Position i.Der Standard für i ist 1, wenn n nicht negativ ist und #s + 1 ansonsten, so dass utf8.offset(s, -n) den Versatz des n -Zeichens vom Ende der Stringerhält.Wenn der angegebene Zeichen weder im Thema noch kurz nach seinem beendenist, gibt die Funktion nil zurück.

Parameter

s: string

n: number

i: number

Standardwert: 1

Rückgaben

number

graphemes

function

Gibt eine Iterationsfunktion zurück, so dass


for first, last in utf8.graphemes(str) do
	local grapheme = s:sub(first, last)
	-- körper
end

wird die graphem-cluster der stringwiederholen.

Wandelt die Eingabestreuze in Normale Form C um, die versucht, zerlegte Zeichen in zusammengeführte Zeichen umzuwandeln.

Parameter

str: string

Rückgaben

string

nfdnormalize

string

Wandelt die Eingabestreuze in Normale Form D um, die versucht, zusammengesetzte Zeichen in zerlegte Zeichen aufzuteilen.

Parameter

str: string

Der String zum Umwandeln.

Rückgaben

string

Eigenschaften

charpattern

string

Das Muster "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", das genau null oder mehr UTF-8-Byte-Sequenz entspricht, unter der Annahme, dass das Thema ein gültiger UTF-8-String ist.

utf8

Zusammenfassung

Funktionen

Eigenschaften

Funktionen

char

Parameter

Rückgaben

codes

Parameter

Rückgaben

codepoint

Parameter

Rückgaben

len

Parameter

Rückgaben

offset

Parameter

Rückgaben

graphemes

Parameter

Rückgaben

nfcnormalize

Parameter

Rückgaben

nfdnormalize

Parameter

Rückgaben

Eigenschaften

charpattern

Auf dieser Seite