utf8
*Konten ini diterjemahkan menggunakan AI (Beta) dan mungkin mengandung kesalahan. Untuk melihat halaman ini dalam bahasa Inggris, klik di sini.
Perpustakaan ini memberikan dukungan dasar untuk UTF-8 enkode.Perpustakaan ini tidak memberikan dukungan untuk Unicode selain penanganan koding.Setiap operasi yang membutuhkan arti karakter, seperti klasifikasi karakter, berada di luar cakupannya.
Kecuali dinyatakan lain, semua fungsi yang mengharapkan posisi byte sebagai parameter menganggap posisi yang diberikan adalah awal dari urutan byte atau satu plus panjang string subjek.Seperti di perpustakaan string, indeks negatif dihitung dari akhir string.
Anda dapat menemukan katalog besar karakter yang dapat digunakan UTF-8di sini .
Rangkuman
Fungsi
Mengubah nol atau lebih banyak poin kode ke urutan bayi UTF-8.
Kembalikan fungsi iterasi yang mengiterasi semua titik kode di string tertentu.
Kembalikan kode-kode (sebagai bilangan bulat) dari semua kode-kode di sebuah string tertentu.
Kembalikan jumlah kode UTF-8 dalam string tertentu.
Kembalikan posisi (dalam bayt) di mana enkode kode n - titik s (dimulai dari posisi bayt i) dimulai.
Kembalikan fungsi iterasi yang mengiterasi kluster grafem dari string tertentu.
Mengubah string input ke bentuk Normal C.
Mengubah string input ke bentuk Normal D.
Properti
Pola "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" , yang cocok dengan persis nol atau lebih banyak urutan byte UTF-8, dengan asumsi bahwa subjek adalah string UTF-8 yang valid.
Fungsi
codes
Kembalikan fungsi iterator sehingga konstruksi:
for position, codepoint in utf8.codes(str) do-- tubuhend
akan mengulangi atas semua titik kode di string str. Ini menimbulkan kesalahan jika memenuhi urutan byte yang tidak valid.
Parameter
String untuk diulang.
Kembalikan kode-kode (sebagai bilangan bulat) dari semua kode-kode di string yang disediakan (str) yang dimulai antara posisi byte i dan j (keduanya termasuk).Default untuk i adalah 1 dan untuk j adalah i .Ini menyebabkan kesalahan jika memenuhi urutan byte yang tidak valid.
Parameter
len
Kembalikan jumlah poin kode UTF-8 di string str yang dimulai di antara posisi i dan j (keduanya termasuk).Default untuk i adalah 1 dan untuk j adalah -1 .Jika menemukan urutan byte yang tidak valid, mengembalikan nilai nol ditambah posisi byte yang tidak valid pertama.
Memberikan nilai
offset
Kembalikan posisi (dalam bayt) di mana enkode kode n - titik s (dimulai dari posisi bayt i) dimulai.Sebuah negatif n mendapatkan karakter sebelum posisi i .Standar untuk i adalah 1 ketika n adalah non-negatif dan #s + 1 jika tidak, sehingga utf8.offset(s, -n) mendapatkan offset karakter n dari akhir string.Jika karakter yang ditentukan tidak ada di subjek maupun segera setelah akhiri, fungsi akan mengembalikan nil .
Memberikan nilai
Properti
charpattern
Pola "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" , yang cocok dengan persis nol atau lebih banyak urutan byte UTF-8, dengan asumsi bahwa subjek adalah string UTF-8 yang valid.