テキストファイルの文字コードを判定し、文字化けを解消。多言語のコンテンツ解析にも対応しています。
文字コード検出
文字コード検出
文字化けしたファイルを処理したいが、元の文字コードが分からないとお困りですか?文字コード判定ツールは、バイナリのバイトシーケンスの特徴を解析することで、テキストファイルの文字コード(UTF-8、GBK、ISO-8859-1など)を正確に識別します。文字コードは、テキスト文字がバイナリデータとしてどのように保存されるかを決定します。本ツールはファイル名、サイズ、文字コードの種類、および推測される言語を出力し、開発者がエンコーディングの互換性問題を迅速に解決できるようサポートします。
文字コード判定の精度を上げるには?
ファイルサイズが1KB以上であり、識別可能な文字の特徴が含まれていることを確認してください。テキストが短すぎる場合、誤判定される可能性があります。
複数の言語が混在するファイルはどのように処理されますか?
ツールは主要な言語の特徴を優先してマッチングします。中国語と英語が混在するファイルは「zh-CN/en」のダブルタグでマークされることがありますが、文字コードの判定結果は常に全体のバイトシーケンス解析に基づいています。
テキスト形式のファイル(.txt / .log / .csv / .htmlなど)にのみ適用されます。バイナリファイルの判定結果には意味がありません。一度に処理できるファイルは1つのみです。機密情報を含むプライベートなドキュメントはアップロードしないでください。
中国語版Windowsシステムで作成された.csvファイルはGB18030エンコーディングであることが多く、UTF-8環境で開くと文字化けする場合があります。変換する前に、まず元の文字コードを判定することをお勧めします。判定結果の例:注文履歴.csv → GB18030エンコーディング、zh-CN言語。