utf8

Veraltete anzeigen

*Dieser Inhalt wurde mit KI (Beta) übersetzt und kann Fehler enthalten. Um diese Seite auf Englisch zu sehen, klicke hier.

Diese Bibliothek bietet grundlegende Unterstützung für UTF-8 Encodierung.Diese Bibliothek bietet keine Unterstützung für Unicode außer der Verarbeitung der Encodierung.Jede Operation, die die Bedeutung eines Charakters benötigt, wie z. B. die Klassifizierung eines Charakters, liegt außerhalb ihres Bereichs.

Es sei denn, anders angegeben, erwarten alle Funktionen, die eine Byte-Position als Parameter erwarten, dass die angegebene Position entweder der Beginn einer Bytesequenz oder ein Plus der Länge des Themen strings ist.Wie in der String-Bibliothek zählen negative Indizes vom Ende des Strings.

Sie können einen großen Katalog von verwendbaren UTF-8 Zeichen hier finden.

Zusammenfassung

Funktionen

Eigenschaften

  • Das Muster "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", das genau null oder mehr UTF-8-Byte-Sequenzen übereinstimmt, unter der Annahme, dass das Thema ein gültiger UTF-8-String ist.

Funktionen

char

Erhält Null oder mehr Codepunkte als Ganzzahlen, wandelt jeden in seine entsprechende UTF-8-Byte-Sequenz um und gibt eine Zeichenkette mit der Kombination aller dieser Sequenzen zurück.

Parameter

codepoints: Tuple<number>

Rückgaben

Gibt eine Iterationsfunktion zurück, sodass die Konstruktion:


for position, codepoint in utf8.codes(str) do
-- körper
end

Wird sich über alle Codepunkte in der Zeichenkette str wiederholen. Es erzeugt einen Fehler, wenn es eine ungültige Bytesequenz trifft.

Parameter

str: string

Der String, über den iteriert wird.

codepoint

Gibt die Codepunkte (als Ganzzahlen) von allen Codepunkten in dem bereitgestellten String (str) zurück, die zwischen den Byte-Positionen i und j beginnen (beide enthalten).Der Standard für i ist 1 und für j ist i .Es erzeugt einen Fehler, wenn es eine ungültige Bytesequenz trifft.

Parameter

str: string

Der Index des Codepoints, der aus dieser Stringabgerufen werden soll.

Standardwert: 1

Der Index des letzten Codepoints zwischen i und j, der zurückgegeben wird. Wenn ausgeschlossen, wird dieser auf den Wert von i zurückgesetzt.

Standardwert: i

Rückgaben

Gibt die Anzahl der UTF-8-Codepunkte in der Zeichenkette str an, die zwischen den Positionen i und j (beide inclusive) beginnt.Der Standard für i ist 1 und für j ist -1 .Wenn es eine ungültige Bytesequenz findet, gibt es einen Nullwert plus die Position des ersten ungültigen Bytes zurück.

Parameter

Die Startposition.

Standardwert: 1

Die abschließende Position.

Standardwert: -1

Rückgaben

offset

Gibt die Position (in Bytes) zurück, an der die Verschlüsselung des n Codepunkts von s (ab Byteposition i) beginnt.Ein negatives n bekommt Zeichen vor der Position i.Der Standard für i ist 1, wenn n nicht negativ ist und #s + 1 ansonsten, so dass utf8.offset(s, -n) den Versatz des n -Zeichens vom Ende der Stringerhält.Wenn der angegebene Zeichen weder im Thema noch kurz nach seinem beendenist, gibt die Funktion nil zurück.

Parameter

Standardwert: 1

Rückgaben

graphemes

Gibt eine Iterationsfunktion zurück, so dass


for first, last in utf8.graphemes(str) do
local grapheme = s:sub(first, last)
-- körper
end

wird die graphem-cluster der stringwiederholen.

Parameter

Rückgaben

nfcnormalize

Wandelt die Eingabestreuze in Normale Form C um, die versucht, zerlegte Zeichen in zusammengeführte Zeichen umzuwandeln.

Parameter

str: string

Rückgaben

nfdnormalize

Wandelt die Eingabestreuze in Normale Form D um, die versucht, zusammengesetzte Zeichen in zerlegte Zeichen aufzuteilen.

Parameter

str: string

Der String zum Umwandeln.

Rückgaben

Eigenschaften

charpattern

Das Muster "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", das genau null oder mehr UTF-8-Byte-Sequenz entspricht, unter der Annahme, dass das Thema ein gültiger UTF-8-String ist.