utf8

Tampilkan yang Tidak Digunakan Lagi

*Konten ini diterjemahkan menggunakan AI (Beta) dan mungkin mengandung kesalahan. Untuk melihat halaman ini dalam bahasa Inggris, klik di sini.

Perpustakaan ini memberikan dukungan dasar untuk UTF-8 enkode.Perpustakaan ini tidak memberikan dukungan untuk Unicode selain penanganan koding.Setiap operasi yang membutuhkan arti karakter, seperti klasifikasi karakter, berada di luar cakupannya.

Kecuali dinyatakan lain, semua fungsi yang mengharapkan posisi byte sebagai parameter menganggap posisi yang diberikan adalah awal dari urutan byte atau satu plus panjang string subjek.Seperti di perpustakaan string, indeks negatif dihitung dari akhir string.

Anda dapat menemukan katalog besar karakter yang dapat digunakan UTF-8di sini .

Rangkuman

Fungsi

Properti

  • Pola "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" , yang cocok dengan persis nol atau lebih banyak urutan byte UTF-8, dengan asumsi bahwa subjek adalah string UTF-8 yang valid.

Fungsi

char

Menerima nol atau lebih banyak poin kode sebagai bilangan bulat, mengubah masing-masing menjadi urutan bilangan UTF-8 yang sesuai dan mengembalikan string dengan koncatenasi semua urutan ini.

Parameter

codepoints: Tuple<number>

Memberikan nilai

Kembalikan fungsi iterator sehingga konstruksi:


for position, codepoint in utf8.codes(str) do
-- tubuh
end

akan mengulangi atas semua titik kode di string str. Ini menimbulkan kesalahan jika memenuhi urutan byte yang tidak valid.

Parameter

str: string

String untuk diulang.

Memberikan nilai

codepoint

Kembalikan kode-kode (sebagai bilangan bulat) dari semua kode-kode di string yang disediakan (str) yang dimulai antara posisi byte i dan j (keduanya termasuk).Default untuk i adalah 1 dan untuk j adalah i .Ini menyebabkan kesalahan jika memenuhi urutan byte yang tidak valid.

Parameter

str: string

Indeks kode titik yang harus diambil dari string ini.

Nilai Default: 1

Indeks dari kode terakhir antara i dan j yang akan dikembalikan. Jika dikecualikan, ini akan default ke nilai i .

Nilai Default: i

Memberikan nilai

Kembalikan jumlah poin kode UTF-8 di string str yang dimulai di antara posisi i dan j (keduanya termasuk).Default untuk i adalah 1 dan untuk j adalah -1 .Jika menemukan urutan byte yang tidak valid, mengembalikan nilai nol ditambah posisi byte yang tidak valid pertama.

Parameter

Posisi awal.

Nilai Default: 1

Posisi akhir.

Nilai Default: -1

Memberikan nilai

offset

Kembalikan posisi (dalam bayt) di mana enkode kode n - titik s (dimulai dari posisi bayt i) dimulai.Sebuah negatif n mendapatkan karakter sebelum posisi i .Standar untuk i adalah 1 ketika n adalah non-negatif dan #s + 1 jika tidak, sehingga utf8.offset(s, -n) mendapatkan offset karakter n dari akhir string.Jika karakter yang ditentukan tidak ada di subjek maupun segera setelah akhiri, fungsi akan mengembalikan nil .

Parameter

Nilai Default: 1

Memberikan nilai

graphemes

Kembalikan fungsi iterator sehingga


for first, last in utf8.graphemes(str) do
local grapheme = s:sub(first, last)
-- tubuh
end

akan mengulangi kluster grafem dari string.

Parameter

Memberikan nilai

nfcnormalize

Mengubah string input ke Normal Form C, yang mencoba mengubah karakter terdekomposisi menjadi karakter komposit.

Parameter

str: string

Memberikan nilai

nfdnormalize

Mengubah string input ke Normal Form D, yang mencoba memecah karakter komposit menjadi karakter terpisah.

Parameter

str: string

String untuk dikonversi.

Memberikan nilai

Properti

charpattern

Pola "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" , yang cocok dengan persis nol atau lebih banyak urutan byte UTF-8, dengan asumsi bahwa subjek adalah string UTF-8 yang valid.