utf8

Veraltete anzeigen

*Dieser Inhalt wurde mit KI (Beta) übersetzt und kann Fehler enthalten. Um diese Seite auf Englisch zu sehen, klicke hier.

Diese Bibliothek bietet grundlegende Unterstützung für die UTF-8-Verschlüsselung. Diese Bibliothek bietet keine Unterstützung für Unicode, außer der Verarbeitung der Verschlüsselung. Jeder Betrieb, der die Bedeutung eines Charakters, z. B. Charakterklassifizierung, benötigt, ist außerhalb seines Umfangs.

Es sei denn, es wird anders angegeben, alle Funktionen, die eine Byte-Position als Parameter erwarten, nehmen an, dass die angegebene Position entweder der Start einer Byte-Sequenz oder ein Plus der Länge des Substrumpfes ist. Wie in der Strings-Bibliothek zählen negative Indizes ab dem Ende des Strumpfes.

Sie können einen großen Katalog von verwendbaren UTF-8 Zeichen hier finden.

Zusammenfassung

Funktionen

Eigenschaften

  • Das Muster "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", das genau null oder mehr UTF-8-Byte-Sequenzen entspricht, unter der Annahme, dass das Subjekt eine gültige Stringist.

Funktionen

char

Erkennt零 oder mehr Codepoints als Zahlen, um jeden in seine entsprechende UTF-8-Bitfolge umzuwandeln, und gibt eine Zeichenkette mit der Konzentration aller Sequenzen zurück.

Parameter

codepoints: Tuple<number>

Rückgaben

Gibt eine Iter-Funktion zurück, damit die Konstruktion:


for position, codepoint in utf8.codes(str) do
-- körper
end

iteriert über alle Codepoints in der Zeile str. Es erhält einen Fehler, wenn es eine ungültige Byteserie trifft.

Parameter

str: string

Die Strings, über die sie durchlaufen.

codepoint

Kehre die Codepunkte (als Zahlen) von allen Codepunkten in der angegebenen Zeichenfolge (str) zurück, die zwischen Byte-Positionen i und j (beide inklusive) beginnen. Die Standard für i ist 1> 11> und für 4> j4> ist 7>

Parameter

str: string

Der Index des Codepoints, der von dieser Stringabgerufen werden sollte.

Standardwert: 1

Der Index des letzten Codepoints zwischen i und j, der zurückgegeben wird. Wenn ausgeschlossen, wird dies standardmäßig auf den Wert von i gesetzt.

Standardwert: i

Rückgaben

Gibt die Anzahl der UTF-8-Codepunkte in der Strings str zurück, die zwischen Positionen i und j (beide inklusiv) beginnt. Die Standard für 1> i1> ist 4> 14> und für 7> j

Parameter

Die Startposition.

Standardwert: 1

Die Endposition.

Standardwert: -1

Rückgaben

offset

Parameter

Standardwert: 1

Rückgaben

graphemes

Gibt eine Iterator-Funktion zurück, damit


for first, last in utf8.graphemes(str) do
local grapheme = s:sub(first, last)
-- körper
end

iteriert die grapheme-kluster der string.

Parameter

Rückgaben

nfcnormalize

Konvertiert die Eingabezeitung in normales Formular C, das versucht, dekomprimierte Zeichen in komposierte Zeichen umzuwandeln.

Parameter

str: string

Rückgaben

nfdnormalize

Konvertiert die Eingabezeitung in normale Zeichen D, die versucht, komposierte Zeichen in dekomponierte Zeichen zu zerbrechen.

Parameter

str: string

Die Strings umzuwandeln.

Rückgaben

Eigenschaften

charpattern

Das Muster "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", das genau null oder mehr UTF-8-Bit-Sequenz entspricht, unter der Annahme, dass das Subjekt eine gültige Stringist.