utf8

Mostrar obsoleto

*Este conteúdo é traduzido por IA (Beta) e pode conter erros. Para ver a página em inglês, clique aqui.

Esta biblioteca fornece suporte básico para UTF-8 codificação.Esta biblioteca não fornece nenhum suporte para o Unicode além do manuseio do código de codificação.Qualquer operação que precise do significado de um personagem, como a classificação de personagens, está fora de seu alcance.

A menos que especificado de outra forma, todas as funções que esperam uma posição de byte como parâmetro assumem que a posição dada é o início de uma sequência de bytes ou um mais a comprimento da string / cadeia / textodo assunto.Como na biblioteca de strings, os índices negativos contam a partir do final da string / cadeia / texto.

Você pode encontrar um grande catálogo de caracteres úteis aqui.

Resumo

Funções

Propriedades

  • O padrão "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", que corresponde exatamente a zero ou mais sequências de bytes UTF-8, assumindo que o assunto é uma string / cadeia / textoUTF-8 válida.

Funções

char

Recebe zero ou mais pontos de código como inteiros, converte cada um deles em sua sequência de bytes UTF-8 correspondente e retorna uma string com a concatenação de todas essas sequências.

Parâmetros

codepoints: Tuple<number>

Devolução

Retorna uma função de iteração para que a construção:


for position, codepoint in utf8.codes(str) do
-- corpo
end

iterará sobre todos os pontos de código na string str. Levanta um erro se encontrar qualquer sequência de bytes inválida.

Parâmetros

str: string

A string para iterar.

codepoint

Retorna os pontos de código (como inteiros) de todos os pontos de código na string fornecida (str) que começam entre posições de bytes i e j (ambos incluídos).O padrão para i é 1 e para j é i.Ela levanta um erro se encontrar qualquer sequência de bytes inválida.

Parâmetros

str: string

O índice do ponto de código que deve ser recuperado desta string / cadeia / texto.

Valor Padrão: 1

O índice do último ponto de código entre i e j que será retornado. Se excluído, isso padronizará o valor de i .

Valor Padrão: i

Devolução

Retorna o número de pontos de código UTF-8 na string str que começam entre as posições i e j (ambas inclusivas).O padrão para i é 1 e para j é -1.Se encontrar qualquer sequência de bytes inválida, retorna um valor nil mais a posição do primeiro byte inválido.

Parâmetros

A posição de partida.

Valor Padrão: 1

A posição final.

Valor Padrão: -1

Devolução

offset

Retorna a posição (em bytes) onde o enquadramento do ponto de código n de s (contando a partir da posição de bytes i) começa.Um negativo n obtém caracteres antes da posição i.O padrão para i é 1 quando n é não negativo e #s + 1 caso contrário, para que utf8.offset(s, -n) receba o deslocamento do personagem n do fim da string / cadeia / texto.Se o personagem especificado não estiver nem no assunto nem logo após o seu terminar/parar/sair, a função retorna nil .

Parâmetros

Valor Padrão: 1

Devolução

graphemes

Retorna uma função de iteração para que


for first, last in utf8.graphemes(str) do
local grapheme = s:sub(first, last)
-- corpo
end

iterará os clusters de grafemas da string / cadeia / texto.

Parâmetros

Devolução

nfcnormalize

Converte a string de entrada para Normal Form C, que tenta converter caracteres descompostos em caracteres compostos.

Parâmetros

str: string

Devolução

nfdnormalize

Converte a string de entrada para Forma Normal D, que tenta dividir os caracteres compostos em caracteres descompostos.

Parâmetros

str: string

A string para converter.

Devolução

Propriedades

charpattern

O padrão "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", que corresponde exatamente a zero ou mais sequência de bytes UTF-8, assumindo que o assunto é uma string / cadeia / textoUTF-8 válida.