utf8

Mostrar obsoleto

*Este conteúdo é traduzido por IA (Beta) e pode conter erros. Para ver a página em inglês, clique aqui.

Esta biblioteca fornece suporte básico para UTF-8 codificação.Esta biblioteca não fornece nenhum suporte para o Unicode além do manuseio do código de codificação.Qualquer operação que precise do significado de um personagem, como a classificação de personagens, está fora de seu alcance.

A menos que especificado de outra forma, todas as funções que esperam uma posição de byte como parâmetro assumem que a posição dada é o início de uma sequência de bytes ou um mais a comprimento da string / cadeia / textodo assunto.Como na biblioteca de strings, os índices negativos contam a partir do final da string / cadeia / texto.

Você pode encontrar um grande catálogo de caracteres úteis aqui.

Resumo

Funções

char(codepoints : Tuple<number>):string
Converte zero ou mais pontos de código para sequências de bytes UTF-8.
codes(str : string):function,string,number
Retorna uma função de iteração que itera todos os pontos de código em uma string / cadeia / textodada.
codepoint(str : string,i : number,j : number):Tuple<number>
Retorna os pontos de código (como inteiros) de todos os pontos de código em uma string / cadeia / textodada.
len(s : string,i : number,j : number):number
Retorna o número de pontos de código UTF-8 em uma string / cadeia / textodada.
offset(s : string,n : number,i : number):number?
Retorna a posição (em bytes) onde o enquadramento do ponto de código n de s (contando a partir da posição de bytes i) começa.
graphemes(str : string,i : number,j : number):function
Retorna uma função de iteração que itera sobre os grupos de grafemas de uma string / cadeia / textodada.
nfcnormalize(str : string):string
Converte a string de entrada para a forma normal C.
nfdnormalize(str : string):string
Converte a string de entrada para a forma normal D.

Propriedades

charpattern:string
O padrão "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", que corresponde exatamente a zero ou mais sequências de bytes UTF-8, assumindo que o assunto é uma string / cadeia / textoUTF-8 válida.

Funções

char

string

Recebe zero ou mais pontos de código como inteiros, converte cada um deles em sua sequência de bytes UTF-8 correspondente e retorna uma string com a concatenação de todas essas sequências.

Parâmetros

codepoints: Tuple<number>

Devolução

string

codes

function

Retorna uma função de iteração para que a construção:


for position, codepoint in utf8.codes(str) do
	-- corpo
end

iterará sobre todos os pontos de código na string str. Levanta um erro se encontrar qualquer sequência de bytes inválida.

Parâmetros

str: string

A string para iterar.

Devolução

function

string

number

codepoint

Tuple<number>

Retorna os pontos de código (como inteiros) de todos os pontos de código na string fornecida (str) que começam entre posições de bytes i e j (ambos incluídos).O padrão para i é 1 e para j é i.Ela levanta um erro se encontrar qualquer sequência de bytes inválida.

Parâmetros

str: string

i: number

O índice do ponto de código que deve ser recuperado desta string / cadeia / texto.

Valor Padrão: 1

j: number

O índice do último ponto de código entre i e j que será retornado. Se excluído, isso padronizará o valor de i .

Valor Padrão: i

Devolução

Tuple<number>

len

number

Retorna o número de pontos de código UTF-8 na string str que começam entre as posições i e j (ambas inclusivas).O padrão para i é 1 e para j é -1.Se encontrar qualquer sequência de bytes inválida, retorna um valor nil mais a posição do primeiro byte inválido.

Parâmetros

s: string

i: number

A posição de partida.

Valor Padrão: 1

j: number

A posição final.

Valor Padrão: -1

Devolução

number

offset

number

Retorna a posição (em bytes) onde o enquadramento do ponto de código n de s (contando a partir da posição de bytes i) começa.Um negativo n obtém caracteres antes da posição i.O padrão para i é 1 quando n é não negativo e #s + 1 caso contrário, para que utf8.offset(s, -n) receba o deslocamento do personagem n do fim da string / cadeia / texto.Se o personagem especificado não estiver nem no assunto nem logo após o seu terminar/parar/sair, a função retorna nil .

Parâmetros

s: string

n: number

i: number

Valor Padrão: 1

Devolução

number

graphemes

function

Retorna uma função de iteração para que


for first, last in utf8.graphemes(str) do
	local grapheme = s:sub(first, last)
	-- corpo
end

iterará os clusters de grafemas da string / cadeia / texto.

Converte a string de entrada para Normal Form C, que tenta converter caracteres descompostos em caracteres compostos.

Parâmetros

str: string

Devolução

string

nfdnormalize

string

Converte a string de entrada para Forma Normal D, que tenta dividir os caracteres compostos em caracteres descompostos.

Parâmetros

str: string

A string para converter.

Devolução

string

Propriedades

charpattern

string

O padrão "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", que corresponde exatamente a zero ou mais sequência de bytes UTF-8, assumindo que o assunto é uma string / cadeia / textoUTF-8 válida.

utf8

Resumo

Funções

Propriedades

Funções

char

Parâmetros

Devolução

codes

Parâmetros

Devolução

codepoint

Parâmetros

Devolução

len

Parâmetros

Devolução

offset

Parâmetros

Devolução

graphemes

Parâmetros

Devolução

nfcnormalize

Parâmetros

Devolução

nfdnormalize

Parâmetros

Devolução

Propriedades

charpattern

Nesta página