utf8
*Este conteúdo é traduzido por IA (Beta) e pode conter erros. Para ver a página em inglês, clique aqui.
Esta biblioteca fornece suporte básico para UTF-8 codificação.Esta biblioteca não fornece nenhum suporte para o Unicode além do manuseio do código de codificação.Qualquer operação que precise do significado de um personagem, como a classificação de personagens, está fora de seu alcance.
A menos que especificado de outra forma, todas as funções que esperam uma posição de byte como parâmetro assumem que a posição dada é o início de uma sequência de bytes ou um mais a comprimento da string / cadeia / textodo assunto.Como na biblioteca de strings, os índices negativos contam a partir do final da string / cadeia / texto.
Você pode encontrar um grande catálogo de caracteres úteis aqui.
Resumo
Funções
Converte zero ou mais pontos de código para sequências de bytes UTF-8.
Retorna uma função de iteração que itera todos os pontos de código em uma string / cadeia / textodada.
Retorna os pontos de código (como inteiros) de todos os pontos de código em uma string / cadeia / textodada.
Retorna o número de pontos de código UTF-8 em uma string / cadeia / textodada.
Retorna a posição (em bytes) onde o enquadramento do ponto de código n de s (contando a partir da posição de bytes i) começa.
Retorna uma função de iteração que itera sobre os grupos de grafemas de uma string / cadeia / textodada.
Converte a string de entrada para a forma normal C.
Converte a string de entrada para a forma normal D.
Propriedades
O padrão "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", que corresponde exatamente a zero ou mais sequências de bytes UTF-8, assumindo que o assunto é uma string / cadeia / textoUTF-8 válida.
Funções
codes
Retorna uma função de iteração para que a construção:
for position, codepoint in utf8.codes(str) do-- corpoend
iterará sobre todos os pontos de código na string str. Levanta um erro se encontrar qualquer sequência de bytes inválida.
Parâmetros
A string para iterar.
Retorna os pontos de código (como inteiros) de todos os pontos de código na string fornecida (str) que começam entre posições de bytes i e j (ambos incluídos).O padrão para i é 1 e para j é i.Ela levanta um erro se encontrar qualquer sequência de bytes inválida.
Parâmetros
len
Retorna o número de pontos de código UTF-8 na string str que começam entre as posições i e j (ambas inclusivas).O padrão para i é 1 e para j é -1.Se encontrar qualquer sequência de bytes inválida, retorna um valor nil mais a posição do primeiro byte inválido.
Parâmetros
Devolução
offset
Retorna a posição (em bytes) onde o enquadramento do ponto de código n de s (contando a partir da posição de bytes i) começa.Um negativo n obtém caracteres antes da posição i.O padrão para i é 1 quando n é não negativo e #s + 1 caso contrário, para que utf8.offset(s, -n) receba o deslocamento do personagem n do fim da string / cadeia / texto.Se o personagem especificado não estiver nem no assunto nem logo após o seu terminar/parar/sair, a função retorna nil .
Devolução
Propriedades
charpattern
O padrão "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", que corresponde exatamente a zero ou mais sequência de bytes UTF-8, assumindo que o assunto é uma string / cadeia / textoUTF-8 válida.