utf8

显示已弃用

*此内容使用人工智能(Beta)翻译,可能包含错误。若要查看英文页面,请点按 此处

该库提供基本支持 UTF-8 编码。本库不提供任何支持Unicode的功能,除了编码处理之外。任何需要字符意义的操作,例如字符分类,都超出了其范围。

除非另有说明外,所有预期作为参数的字位位置的函数都假定指定位置是字符串主题长度加一的开始或字符串主题长度加一的开始。正如在字符串库中,负索引从字符串尾部计数。

你可以在这里找到大型目录的可用 UTF-8 字符 .

概要

职能

属性

  • 模式 "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" , 匹配准确为零或更多的 UTF-8 字符串序列,假设主题是一个有效的 UTF-8 字符串。

职能

char

接收零或更多的代码点作为整数,将每个转换为相应的 UTF-8 字符串序列,然后返回包含所有这些序列的字符串。

参数

codepoints: Tuple<number>

返回

返回迭代器函数,以便构建:


for position, codepoint in utf8.codes(str) do
-- 身体
end

将遍历串 str 中的所有代码点。如果遇到任何无效的字符串序列,就会发出错误。

参数

str: string

要循环的字符串。

codepoint

返回所有代码点 (作为整数) 从提供的字符串 (str) 中的所有代码点,开始于 byte 位置 ij (两者都包含) 的代码点。默认值 i1 ,默认值 ji 。如果它遇到任何无效的字节序列,就会发出错误。

参数

str: string

从这个字符串中应该获取的代码点的索引。

默认值:1

将返回的最后代码点之间的索引 ij ,如果被排除,将默认为 i 的值。

默认值:i

返回

返回字符串 str 中的 UTF-8 代码点数量,该点数开始于位置 ij (两者均包括)。对于 i 的默认值是 1 ,对于 j 的默认值是 -1 。如果发现任何无效的字节序列,返回 nil 值加上第一个无效字节的位置。

参数

起始位置。

默认值:1

结束位置。

默认值:-1

返回

offset

返回位置 (以字节计),在那里编码 n ‑第 s 代码点的 i (从字节位置计数) 开始。一个负值 n 获得位置前的字符 i .默认值为 当 为非负时, 否则,以便 获得字符串尾部的 ‑ 角色的抵消。如果指定的字符不在主题中或结束后,函数返回 nil

参数

默认值:1

返回

graphemes

返回迭代器函数以便


for first, last in utf8.graphemes(str) do
local grapheme = s:sub(first, last)
-- 身体
end

将遍历字符串的音素集合。

参数

返回

nfcnormalize

将输入字符串转换为普通形式 C,该形式试图将分解的字符转换为组合的字符。

参数

str: string

返回

nfdnormalize

将输入字符串转换为普通形式 D,该形式试图将组合字符拆分为分解字符。

参数

str: string

要转换的字符串。

返回

属性

charpattern

模式 "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" , 匹配准确为零或更多的 UTF-8 字符串序列,假设主题是一个有效的 UTF-8 字符串。