utf8

แสดงที่เลิกใช้งานแล้ว

*เนื้อหานี้แปลโดยใช้ AI (เวอร์ชัน Beta) และอาจมีข้อผิดพลาด หากต้องการดูหน้านี้เป็นภาษาอังกฤษ ให้คลิกที่นี่

ห้องสมุดนี้ให้การสนับสนุนพื้นฐานสำหรับการเข้ารหัส UTF-8 นี้ ห้องสมุดนี้ไม่ให้การสนับสนุนสำหรับ Unicode นอกเหนือจากการจัดการการเข้ารหัส การดำเนินการใด ๆ ที่ต้องการความหมายขอ

ยกเว้นอย่างอื่น ฟังก์ชันทั้งหมดที่คาดหวังตำแหน่งบาทเป็นตัวแปรต้องการตำแหน่งที่เป็นจุดเริ่มต้นของตรรกะบาทหรือหนึ่งบวกความยาวของสตริง ในห้องสตริง ตัวอ้างลบจะนับจากจุดสิ้นสุดของสตริ

คุณสามารถค้นหาคุณสมบัติขนาดใหญ่ของตัวอักษร UTF-8 ที่ใช้ได้ ที่นี่

สรุป

ฟังก์ชัน

  • char(codepoints : Tuple<number>):string

    แปลงรหัส 0 หรือมากกว่าเป็น UTF-8 สตริงบาท

  • กลับรุ่นตัวผงัดที่ผงัดผ่านทุกค่ายืนในสตริงที่กำหนด

  • กลับค่าจุดโค้ด (เป็นตัวเลข) จากค่าจุดโค้ดทั้งหมดในสตริงที่กำหนด

  • กลับจำนวนของ UTF-8 โค้ดพอยต์ในสตริงที่กำหนด

  • กลับตำแหน่ง (ในบาท) ที่การเข้ารหัสของ n -th คอยล์พอร์ทของ s (นับจากตำแหน่งบาท i) เริ่มต้น

  • สตริง

  • แปลงตัวอักษรของข้อมูลเป็น C รูปแบบปกติ

  • แปลงตัวอักษรของข้อมูลเข้าสู่รูปแบบ D ปกติ

คุณสมบัติ

  • รูปแบบ "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" ซึ่งตรงกับตัวอักษร UTF-8 ตัวอักษรเดียวหรือมากขึ้น สตริงUTF-8 ที่ถูกต้อง

ฟังก์ชัน

char

รับค่า codepoints เป็นตัวเลข แปลงแต่ละอันเป็น UTF-8 ที่ตรงกันของตัวอักษร และกลับสตริงที่มีการรวมตัวของทั้งหมดนี้

พารามิเตอร์

codepoints: Tuple<number>

ส่งค่ากลับ

กลับรุ่นผ่านไปยังฟังก์ชันนับถอยหลังเพื่อให้การสร้าง:


for position, codepoint in utf8.codes(str) do
-- ร่างกาย
end

จะทำซ้ำทุกค่ายในสตริง str นี้ หากมันตรงกับค่ายืนยันใด ๆ ที่ไม่ถูกต้อง

พารามิเตอร์

str: string

สตริงที่จะทำซ้ำ

ส่งค่ากลับ

codepoint

กลับรหัสจุด (เป็นตัวเลข) จากค่าย่อในสตริงที่เริ่มต้นระหว่างตำแหน่งบาทสอง (i และ j) ทั้งสองรวมถึง

พารามิเตอร์

str: string

ดัชนีของโค้ดที่ต้องการจากสตริงนี้

ค่าเริ่มต้น: 1

ดัชนีของโค้ดสุดท้ายระหว่าง i และ j ที่จะถูกส่งกลับ หากได้รับการยกเว้นจะปรับให้เป็นค่าเริ่มต้นของ i

ค่าเริ่มต้น: i

ส่งค่ากลับ

กลับสามารถเลขของ UTF-8 codepoints ในสตริง str ที่เริ่มต้นระหว่างตำแหน่ง i และ j (รวมทั้ง) ค่

พารามิเตอร์

ตําแหน่งเริ่มต้น

ค่าเริ่มต้น: 1

ตำแหน่งสิ้นสุด

ค่าเริ่มต้น: -1

ส่งค่ากลับ

offset

กลับตำแหน่ง (ในบาท) ที่การเข้ารหัสของ n -th ปิดหากตัวอักษรที่กำหนดไม่อยู่ในต

พารามิเตอร์

ค่าเริ่มต้น: 1

ส่งค่ากลับ

graphemes

กลับระเบียบฟังก์ชันนับเลข


for first, last in utf8.graphemes(str) do
local grapheme = s:sub(first, last)
-- ร่างกาย
end

จะทำซ้ำคลัสเตอร์ของตัวอักษร

พารามิเตอร์

ส่งค่ากลับ

nfcnormalize

แปลงตัวอักษรที่เป็นข้อความเป็นรูปแบบ C ที่พยายามแปลงตัวอักษรที่เป็นข้อความเป็นตัวอักษรที่เรียบร้อย

พารามิเตอร์

str: string

ส่งค่ากลับ

nfdnormalize

แปลงตัวอักษรที่เป็นสตริงเป็นรูปแบบ D ที่พยายามจะแยกตัวอักษรที่เป็นสตริงเป็นตัวอักษรที่เป็นส่วนประกอบ

พารามิเตอร์

str: string

ตัวอักษรที่จะแปลง

ส่งค่ากลับ

คุณสมบัติ

charpattern

รูปแบบ "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" ซึ่งตรงกับเวลาเป็น UTF-8 หรือมากกว่านั้นตามที่เราตั้งไว้ หากผู้ถูกสมัครเป็น UTF-8 สตริง โดยมีข้อกำหนดว่าเป็นต้น UTF-8 ที่ถูกต้อง