utf8
*Nội dung này được dịch bằng AI (Beta) và có thể có lỗi. Để xem trang này bằng tiếng Anh, hãy nhấp vào đây.
Thư viện này cung cấp hỗ trợ cơ bản cho UTF-8 mã hóa.Thư viện này không cung cấp bất kỳ hỗ trợ nào cho Unicode ngoài việc xử lý mã hóa.Bất kỳ hoạt động nào cần ý nghĩa của một nhân vật, như phân loại nhân vật, nằm ngoài phạm vi của nó.
Trừ khi được định nghĩa khác, tất cả các chức năng mong đợi vị trí byte là một tham số cho rằng vị trí được cho là là khởi đầu của một chuỗi byte hoặc một cộng với chiều dài của chuỗi chủ đề.Như trong thư viện chuỗi, chỉ số âm đếm từ cuối chuỗi.
Bạn có thể tìm thấy một danh mục lớn các nhân vật có thể sử dụng UTF-8 được ở đây .
Tóm Tắt
Chức Năng
Chuyển đổi không có hoặc nhiều điểm mã thành chuỗi bay UTF-8.
Trả về một chức năng iterator lặp qua tất cả các điểm mã trong một chuỗi nhất định.
Trả về các điểm mã (như số thập phân) từ tất cả các điểm mã trong một chuỗi đã cho.
Trả về số điểm mã UTF-8 trong một chuỗi nhất định.
Trả vị trí (bằng byte) mà việc mã hóa của điểm n - thứ mã s (bắt đầu từ vị trí byte i) bắt đầu.
Trả về một chức năng iterator lặp qua các cụm grapheme của một chuỗi đã cho.
Chuyển chuỗi nhập thành dạng bình thường C.
Chuyển chuỗi nhập thành dạng thường Normal Form D.
Thuộc Tính
Mẫu "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", phù hợp với chính xác không có hoặc nhiều hơn chuỗi UTF-8 byte, cho rằng chủ đề là một chuỗi UTF-8 hợp lệ.
Chức Năng
Trả lại các điểm mã (như số thập phân) từ tất cả các điểm mã trong chuỗi cung cấp (str) bắt đầu giữa vị trí byte i và j (cả hai đều bao gồm).Mặc định cho i là 1 và cho j là i .Nó gây ra một lỗi nếu nó gặp bất kỳ chuỗi byte không hợp lệ nào.
Tham Số
len
Trả về số điểm mã UTF-8 trong chuỗi str bắt đầu giữa vị trí i và j (cả hai bao gồm)Mặc định cho i là 1 và cho j là -1.Nếu nó tìm thấy bất kỳ chuỗi byte không hợp lệ nào, trả về giá trị nil cộng với vị trí của chuỗi byte không hợp lệ đầu tiên.
Tham Số
Lợi Nhuận
offset
Trả vị trí (bằng byte) mà việc mã hóa của điểm n - thứ mã s (bắt đầu từ vị trí byte i) bắt đầu.Một negative n nhận được các ký tự trước vị trí i .Mặc định cho i là 1 khi n không phải là âm và #s + 1 nếu không, để utf8.offset(s, -n) nhận được offset của nhân vật n từ cuối chuỗi.Nếu nhân vật được chỉ định không nằm trong chủ đề hoặc ngay sau khi kết thúc, chức năng trả về nil .
Lợi Nhuận
Thuộc Tính
charpattern
Mẫu "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*", phù hợp với chính xác không có hoặc nhiều hơn chuỗi UTF-8 byte, cho rằng chủ đề là một chuỗi UTF-8 hợp lệ.