ヌル終端マルチバイト文字列

ヌル終端マルチバイト文字列 (null-terminated multibyte string; NTMBS) または「マルチバイト文字列」は、非ゼロのバイト列に値ゼロのバイト (終端のヌル文字) が続いたものです。

文字列に格納されている各文字は2つ以上のバイトを使う場合があります。マルチバイト文字列の文字を表すために使われるエンコーディングはロケール固有です。 UTF-8 であったり、 GB18030, EUC-JP, Shift-JIS などであったりします。例えば、文字の配列 {'\xe4','\xbd','\xa0','\xe5','\xa5','\xbd','\0'} は UTF-8 エンコーディングでは "你好" を保持するNTMBSです (最初の3つのバイトが文字「你」を符号化し、次の3つのバイトが文字「好」を符号化します)。同じ文字列が GB18030 では {'\xc4', '\xe3', '\xba', '\xc3', '\0'} になります (各文字が2バイトで符号化されます)。

一部のマルチバイトエンコーディングでは、あるマルチバイト文字シーケンスが、以前に現れた「シフトシーケンス」と呼ばれるバイトシーケンスに依存して、異なる文字を表現する場合があります。このようなエンコーディングは状態依存と呼ばれ、各文字を解釈するためには現在のシフト状態を知る必要があります。 NTMBSは初期シフト状態で始まり初期シフト状態で終わる場合に限り有効です。シフトシーケンスが現れた場合は、終端のN ヌル文字の前に、対応する脱シフトシーケンスが現れる必要があります。このようなエンコーディングの例としては7ビット JIS、BOCU-1 や SCSU があります。

マルチバイト文字列はヌル終端バイト文字列 (NTBS) とレイアウト互換です。つまり、同じ方法を使用して格納したり、コピーしたり、検査することができます。ただし、文字数の計算は除きます。現在のロケールが有効であれば、入出力関数はマルチバイト文字列も取り扱えます。 std::codecvt, std::wstring_convert または以下のロケール依存変換関数を使ってマルチバイト文字列をワイド文字列に変換したり、ワイド文字列をマルチバイト文字列に変換したりできます。

ヘッダ `<cstdlib>` で定義
mblen	次のマルチバイト文字のバイト数を返します (関数)[edit]
mbtowc	次のマルチバイト文字をワイド文字に変換します (関数)[edit]
wctomb	ワイド文字をマルチバイト表現に変換します (関数)[edit]
mbstowcs	マルチバイト文字列をワイド文字列に変換します (関数)[edit]
wcstombs	ワイド文字列をマルチバイト文字列に変換します (関数)[edit]
ヘッダ `<cwchar>` で定義
mbsinit	mbstate_t オブジェクトが初期シフト状態を表しているかどうかチェックします (関数)[edit]
btowc	可能であればシングルバイト文字をワイド文字に変換します (関数)[edit]
wctob	可能であればワイド文字をシングルバイト文字に変換します (関数)[edit]
mbrlen	指定された状態を使用して次のマルチバイト文字のバイト数を返します (関数)[edit]
mbrtowc	指定された状態を使用して次のマルチバイト文字をワイド文字に変換します (関数)[edit]
wcrtomb	指定された状態を使用してワイド文字をマルチバイト表現に変換します (関数)[edit]
mbsrtowcs	指定された状態を使用してマルチバイト文字列をワイド文字列に変換します (関数)[edit]
wcsrtombs	指定された状態を使用してワイド文字列をマルチバイト文字列に変換します (関数)[edit]
ヘッダ `<cuchar>` で定義
mbrtoc8 (C++20)	ナローマルチバイト文字を UTF-8 エンコーディングに変換します (関数)[edit]
c8rtomb (C++20)	UTF-8 文字列をナローマルチバイトエンコーディングに変換します (関数)[edit]
mbrtoc16 (C++11)	ナローマルチバイト文字を UTF-16 エンコーディングに変換します (関数)[edit]
c16rtomb (C++11)	16ビットワイド文字をマルチバイト文字列に変換します (関数)[edit]
mbrtoc32 (C++11)	ナローマルチバイト文字を UTF-32 エンコーディングに変換します (関数)[edit]
c32rtomb (C++11)	32ビットワイド文字をマルチバイト文字列に変換します (関数)[edit]

[編集]型

ヘッダ `<cwchar>` で定義
mbstate_t	マルチバイト文字列を反復処理するために必要な変換状態情報 (クラス)[edit]

[編集]マクロ

ヘッダ `<climits>` で定義
MB_LEN_MAX	マルチバイト文字1文字の最大バイト数 (マクロ定数)[edit]
ヘッダ `<cstdlib>` で定義
MB_CUR_MAX	現在のCのロケールにおけるマルチバイト文字1文字の最大文字数 (macro variable)[edit]
ヘッダ `<cuchar>` で定義
__STDC_UTF_16__	mbrtoc16 と c16rtomb で UTF-16 エンコーディングが使用されることを表します (マクロ定数)
__STDC_UTF_32__	mbrtoc32 と c32rtomb で UTF-32 エンコーディングが使用されることを表します (マクロ定数)

[編集]参考文献

ヌル終端マルチバイト文字列の C言語リファレンス

言語
標準ライブラリヘッダ
フリースタンディング処理系とホスト処理系
名前付き要件
言語サポートライブラリ
コンセプトライブラリ(C++20)
診断ライブラリ
ユーティリティライブラリ
文字列ライブラリ
コンテナライブラリ
イテレータライブラリ
範囲ライブラリ(C++20)
アルゴリズムライブラリ
数値演算ライブラリ
ローカライゼーションライブラリ
入出力ライブラリ
ファイルシステムライブラリ(C++17)
正規表現ライブラリ(C++11)
アトミック操作ライブラリ(C++11)
スレッドサポートライブラリ(C++11)
技術仕様書

ヌル終端文字列
バイト文字列
マルチバイト文字列
ワイド文字列
クラス
basic_string
basic_string_view (C++17)
char_traits

cppreference.com

名前空間

変種

表示

操作

ヌル終端マルチバイト文字列

目次

[編集]マルチバイト文字列とワイド文字列の変換

[編集]型

[編集]マクロ

[編集]参考文献

案内

ツールボックス