utf8

非推奨を表示

*このコンテンツは、ベータ版のAI(人工知能)を使用して翻訳されており、エラーが含まれている可能性があります。このページを英語で表示するには、 こちら をクリックしてください。

このライブラリは、UTF-8 エンコードの基本的なサポートを提供します。このライブラリは、エンコードの処理以外のUnicode へのサポートを提供しません。キャラクタの意味を必要とするすべての操作、例えばキャラクタの分類は、その範囲外にあります。

明確に述べられない限り、パラメータとしてバイトポジションを期待するすべての機能は、指定された位置がバイトシーケンスの始まりか、対象のストリングの長さに加えられると仮定します。文字列ライブラリと同様、ネガティブインデックスは文字列の最後からカウントされます。

使用可能な UTF-8 キャラクターの大規模なカタログを見つけることができます ここ

概要

関数

プロパティ

  • 対象が有効な UTF-8 文字列であると仮定して、正確にゼロ以上の UTF-8 バイトシーケンスに一致するパターン "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*"

関数

char

整数としてゼロ以上のコードポイントを受け取り、それぞれを対応する UTF-8 バイトシーケンスに変換し、すべてのシーケンスの連結でストリングを返します。

パラメータ

codepoints: Tuple<number>

戻り値

返すことで、コンストラクションが:


for position, codepoint in utf8.codes(str) do
-- ボディ
end

文字列 str のすべてのコードポイントを反復します。任意のバイトシーケンスに一致すると、エラーが発生します。

パラメータ

str: string

繰り返しする文字列。

codepoint

提供された文字列 (str) のすべてのコードポイント (整数として) を返し、バイト位置 ij (両方含む) の間で開始するすべてのコードポイントからコードポイントを返します。デフォルトは であり、 はデフォルトです。 はデフォルトです。無効なバイトシーケンスに遭遇するとエラーが発生します。

パラメータ

str: string

この文字列から取得する必要があるコードポイントのインデックス。

既定値: 1

インデックスは、ij の間の最後のコードポイントの値が返されます。排除されると、これは i の値にデフォルトします。

既定値: i

戻り値

文字列 str の UTF-8 コードポイント数を返し、位置 ij (両方含む)の間で開始します。デフォルトは であり、 の場合は です。無効なバイトシーケンスを見つけた場合、nil 値と最初の無効バイトの位置を加えて返します。

パラメータ

開始ポジション。

既定値: 1

終了位置。

既定値: -1

戻り値

offset

返す位置 (バイト単位) は、 -番目のコードポイントのエンコードが開始する位置 (バイト位置からカウント) です。ネガティブな n は、位置 i 前にキャラクターを取得します。デフォルトは、 で、 が非ネガティブでないと、 がそうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうで指定された文字が対象にないか、終了わりの直後にない場合、関数は nil を返します。

パラメータ

既定値: 1

戻り値

graphemes

リテラー機能を返して、以下のようになります: Returns an iterator function so that


for first, last in utf8.graphemes(str) do
local grapheme = s:sub(first, last)
-- ボディ
end

文字列のグラフェムクラスターを反復します。

パラメータ

戻り値

nfcnormalize

入力文字をノーマルフォーム C に変換し、分解された文字を構成文字に変換しようとします。

パラメータ

str: string

戻り値

nfdnormalize

入力文字をノーマルフォーム Dに変換し、構成された文字を分解文字に分解しようとします。

パラメータ

str: string

変換する弦。

戻り値

プロパティ

charpattern

対象が有効な UTF-8 文字列であると仮定して、正確にゼロ以上の UTF-8 バイトシーケンスに一致するパターン "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*"