utf8
*Dieser Inhalt wurde mit KI (Beta) übersetzt und kann Fehler enthalten. Um diese Seite auf Englisch zu sehen, klicke hier.
Diese Bibliothek bietet grundlegende Unterstützung für die UTF-8-Verschlüsselung. Diese Bibliothek bietet keine Unterstützung für Unicode, außer der Verarbeitung der Verschlüsselung. Jeder Betrieb, der die Bedeutung eines Charakters, z. B. Charakterklassifizierung, benötigt, ist außerhalb seines Umfangs.
Es sei denn, es wird anders angegeben, alle Funktionen, die eine Byte-Position als Parameter erwarten, nehmen an, dass die angegebene Position entweder der Start einer Byte-Sequenz oder ein Plus der Länge des Substrumpfes ist. Wie in der Strings-Bibliothek zählen negative Indizes ab dem Ende des Strumpfes.
Sie können einen großen Katalog von verwendbaren UTF-8 Zeichen hier finden.
Zusammenfassung
Funktionen
Wandelt null oder mehr Codepoints in UTF-8-Byte-Sequenzen um.
Gibt eine Iterationsfunktion zurück, die über alle Codepoints in einer bestimmten Stringwiederholt wird.
Kehre die Codepoints (als Zahlen) von allen Codepoints in einer bestimmten Stringzurück.
Gibt die Anzahl der UTF-8-Codepunkte in einer bestimmten Stringzurück.
Gibt die Position (in Bytes) zurück, bei der die Encodierung des n -Codepoints von s (mit der Zählung von Byte-Position i) beginnt.
Gibt eine Iterationsfunktion zurück, die über die Graphischen Cluster eines bestimmten Strings itertiert.
Konvertiert die Eingabezeitung in normale Form C.
Konvertiert die Eingabezeitung in normale Form D.
Eigenschaften
Das Muster "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", das genau null oder mehr UTF-8-Byte-Sequenzen entspricht, unter der Annahme, dass das Subjekt eine gültige Stringist.
Funktionen
codes
Gibt eine Iter-Funktion zurück, damit die Konstruktion:
for position, codepoint in utf8.codes(str) do-- körperend
iteriert über alle Codepoints in der Zeile str. Es erhält einen Fehler, wenn es eine ungültige Byteserie trifft.
Parameter
Die Strings, über die sie durchlaufen.
Kehre die Codepunkte (als Zahlen) von allen Codepunkten in der angegebenen Zeichenfolge (str) zurück, die zwischen Byte-Positionen i und j (beide inklusive) beginnen. Die Standard für i ist 1> 11> und für 4> j4> ist 7>
Parameter
Eigenschaften
charpattern
Das Muster "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", das genau null oder mehr UTF-8-Bit-Sequenz entspricht, unter der Annahme, dass das Subjekt eine gültige Stringist.