utf8

Artık kullanılmayanları göster

*Bu içerik, yapay zekâ (beta) kullanılarak çevrildi ve hatalar içerebilir. Sayfayı İngilizce görüntülemek için buraya tıkla.

Bu kütüphane UTF-8 kodlama için temel destek sağlar.Bu kütüphane, kodlamanın ele alınması dışında Unicode'a herhangi bir destek sağlamaz.Karakterin anlamına ihtiyaç duyan herhangi bir operasyon, karakter sınıflandırması gibi, kapsamının dışındadır.

Aksi belirtilmediği sürece, bir byte pozisyonu parametre olarak bekleyen tüm işlevler, verilen pozisyonun bir byte dize başlangıcı veya konu dize uzunluğunun bir artı olduğunu varsayar.Dize kütüphanesinde olduğu gibi, negatif indeksler dizisonundan sayılır.

Kullanılabilir UTF-8 karakterlerin geniş bir kataloğunu burada bulabilirsiniz burada .

Özet

İşlevler

Özellikler

  • Konunun geçerli bir UTF-8 dize olduğunu varsayarak, "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" modeli kesinlikle sıfır veya daha fazla UTF-8 bayt dizisiyle eşleşir.

İşlevler

char

Sıfır veya daha fazla kod noktasını sayı olarak alır, her birini karşılık gelen UTF-8 bayt sırasına dönüştürür ve tüm bu sıraların birleşiminden bir dize döndürür.

Parametreler

codepoints: Tuple<number>

Dönüşler

İnşaatı gerçekleştirmek için bir döngü işlevi döndürür, böylece:


for position, codepoint in utf8.codes(str) do
-- vücut
end

string'teki tüm kod noktaları üzerinde dönecektir str. Herhangi bir geçersiz bayt sırasıyla karşılaşırsa bir hata oluşturur.

Parametreler

str: string

Tekrar edilecek dize.

codepoint

Verilen metindeki tüm kod noktalarını (tamsayı olarak) byte konumları arasında başlayan i ve j (her ikisi de dahil) kod noktalarından döndürür.Varsayılan i için vardır 1 ve j için vardır i .Herhangi bir geçersiz bayt sırasıyla karşılaşırsa bir hata oluşturur.

Parametreler

str: string

Bu dizialınması gereken kod noktasının indeksi.

Varsayılan değer: 1

Döndürülecek son kod noktası arasındaki indeks i ve j . Eğer dışlanırsa, bu değere varsayılan olarak dönecektir i .

Varsayılan değer: i

Dönüşler

UTF-8 kod noktalarının sayısını dize str arasında başlayan pozisyonlar i ve j (her ikisi de dahil) arasında başlayan dizeye geri döndürür.Varsayılan i için değer 1 ve j için değer -1.Herhangi bir geçersiz bayt sırası bulursa, bir nil değeri plus ilk geçersiz baytın konumu döndürür.

Parametreler

Başlangıç pozisyonu.

Varsayılan değer: 1

Son pozisyon.

Varsayılan değer: -1

Dönüşler

offset

Kod noktası n ‑in kodlanmasının başladığı pozisyonu (byte pozisyonundan sayılarak) döndürür (s noktasından sayılan) i (byte pozisyonundan sayılan).Negatif bir n karakterleri pozisyon i öncesinde alır.Varsayılan için değeri , negatif olmadığında ve aksi takdirde, böylece ‑ün karakterinin dize sonundaki ofsetini alır.Belirtilen karakter ne konuya ne de bitirhemen sonra değilse, işlev nil döndürür.

Parametreler

Varsayılan değer: 1

Dönüşler

graphemes

Bir döngü işlevi döndürür, böylece


for first, last in utf8.graphemes(str) do
local grapheme = s:sub(first, last)
-- vücut
end

ipin grafem kümelerini tekrarlayacaktır.

Parametreler

Dönüşler

nfcnormalize

Giriş dizesini Normal Form C'ye dönüştürür, bu da parçalanmış karakterleri birleşik karakterlere dönüştürmeye çalışır.

Parametreler

str: string

Dönüşler

nfdnormalize

Giriş dizesini Normal Form D'ye dönüştürür, bu da bileşik karakterleri parçalara ayırmaya çalışır.

Parametreler

str: string

Dönüştürmek için dize.

Dönüşler

Özellikler

charpattern

Konunun geçerli bir UTF-8 diziolduğunu varsayarak, "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" modeli kesinlikle sıfır veya daha fazla UTF-8 bayt sıra eşleşir.