このライブラリは、UTF-8 エンコードの基本的なサポートを提供します。このライブラリは、エンコードの処理以外のUnicode へのサポートを提供しません。キャラクタの意味を必要とするすべての操作、例えばキャラクタの分類は、その範囲外にあります。
明確に述べられない限り、パラメータとしてバイトポジションを期待するすべての機能は、指定された位置がバイトシーケンスの始まりか、対象のストリングの長さに加えられると仮定します。文字列ライブラリと同様、ネガティブインデックスは文字列の最後からカウントされます。
使用可能な UTF-8 キャラクターの大規模なカタログを見つけることができます ここ 。
概要
関数
ゼロ以上のコードポイントを UTF-8 バイト列に変換します。
指定された文字列内のすべてのコードポイントを順回する迭器関数を返します。
指定された文字列内のすべてのコードポイント (整数として) を返します。
指定された文字列にある UTF-8 コードポイントの数を返します。
返す位置 (バイト単位) は、 -番目のコードポイントのエンコードが開始する位置 (バイト位置からカウント) です。
指定された文字列のグラファムクラスターを順回しする迭器関数を返します。
入力文字列をノーマルフォーム C に変換します。
入力文字列をノーマルフォーム Dに変換します。
プロパティ
対象が有効な UTF-8 文字列であると仮定して、正確にゼロ以上の UTF-8 バイトシーケンスに一致するパターン "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" 。
関数
提供された文字列 (str) のすべてのコードポイント (整数として) を返し、バイト位置 i と j (両方含む) の間で開始するすべてのコードポイントからコードポイントを返します。デフォルトは であり、 はデフォルトです。 はデフォルトです。無効なバイトシーケンスに遭遇するとエラーが発生します。
パラメータ
offset
返す位置 (バイト単位) は、 -番目のコードポイントのエンコードが開始する位置 (バイト位置からカウント) です。ネガティブな n は、位置 i 前にキャラクターを取得します。デフォルトは、 で、 が非ネガティブでないと、 がそうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうでないと、そうで指定された文字が対象にないか、終了わりの直後にない場合、関数は nil を返します。
戻り値
プロパティ
charpattern
対象が有効な UTF-8 文字列であると仮定して、正確にゼロ以上の UTF-8 バイトシーケンスに一致するパターン "[%z\x01-\x7F\xC2-\xF4][\x80-\xBF]*" 。