utf8
*Dieser Inhalt wurde mit KI (Beta) übersetzt und kann Fehler enthalten. Um diese Seite auf Englisch zu sehen, klicke hier.
Diese Bibliothek bietet grundlegende Unterstützung für UTF-8 Encodierung.Diese Bibliothek bietet keine Unterstützung für Unicode außer der Verarbeitung der Encodierung.Jede Operation, die die Bedeutung eines Charakters benötigt, wie z. B. die Klassifizierung eines Charakters, liegt außerhalb ihres Bereichs.
Es sei denn, anders angegeben, erwarten alle Funktionen, die eine Byte-Position als Parameter erwarten, dass die angegebene Position entweder der Beginn einer Bytesequenz oder ein Plus der Länge des Themen strings ist.Wie in der String-Bibliothek zählen negative Indizes vom Ende des Strings.
Sie können einen großen Katalog von verwendbaren UTF-8 Zeichen hier finden.
Zusammenfassung
Funktionen
Wandelt Null oder mehr Codepunkte in UTF-8-Byte-Sequenzen um.
Gibt eine Iterationsfunktion zurück, die über alle Codepunkte in einer bestimmten Stringiteriert.
Gibt die Codepunkte (als Ganzzahlen) von allen Codepunkten in einem bestimmten String zurück.
Gibt die Anzahl der UTF-8-Codepunkte in einem bestimmten String zurück.
Gibt die Position (in Bytes) zurück, an der die Verschlüsselung des n Codepunkts von s (ab Byteposition i) beginnt.
Gibt eine Iterationsfunktion zurück, die über die Graphem-Cluster einer bestimmten Stringiteriert.
Wandelt die Eingabestreuze in die normale Form C um.
Wandelt die Eingabestreuze in die normale Form D um.
Eigenschaften
Das Muster "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", das genau null oder mehr UTF-8-Byte-Sequenzen übereinstimmt, unter der Annahme, dass das Thema ein gültiger UTF-8-String ist.
Funktionen
codes
Gibt eine Iterationsfunktion zurück, sodass die Konstruktion:
for position, codepoint in utf8.codes(str) do-- körperend
Wird sich über alle Codepunkte in der Zeichenkette str wiederholen. Es erzeugt einen Fehler, wenn es eine ungültige Bytesequenz trifft.
Parameter
Der String, über den iteriert wird.
Gibt die Codepunkte (als Ganzzahlen) von allen Codepunkten in dem bereitgestellten String (str) zurück, die zwischen den Byte-Positionen i und j beginnen (beide enthalten).Der Standard für i ist 1 und für j ist i .Es erzeugt einen Fehler, wenn es eine ungültige Bytesequenz trifft.
Parameter
len
Gibt die Anzahl der UTF-8-Codepunkte in der Zeichenkette str an, die zwischen den Positionen i und j (beide inclusive) beginnt.Der Standard für i ist 1 und für j ist -1 .Wenn es eine ungültige Bytesequenz findet, gibt es einen Nullwert plus die Position des ersten ungültigen Bytes zurück.
Parameter
Rückgaben
offset
Gibt die Position (in Bytes) zurück, an der die Verschlüsselung des n Codepunkts von s (ab Byteposition i) beginnt.Ein negatives n bekommt Zeichen vor der Position i.Der Standard für i ist 1, wenn n nicht negativ ist und #s + 1 ansonsten, so dass utf8.offset(s, -n) den Versatz des n -Zeichens vom Ende der Stringerhält.Wenn der angegebene Zeichen weder im Thema noch kurz nach seinem beendenist, gibt die Funktion nil zurück.
Rückgaben
Eigenschaften
charpattern
Das Muster "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", das genau null oder mehr UTF-8-Byte-Sequenz entspricht, unter der Annahme, dass das Thema ein gültiger UTF-8-String ist.