UniversalCharDet

UniversalCharDet

[18] universalchardet は、文字の出現頻度の統計データを元にバイト列の文字コードを判定する手法とその実装です。

目次

原典
実装
標準化
HTML5 Charset 判定算法で失敗する例

原典#✎

[1] A composite approach to language/encoding detection (Shanjian Li 著, 9/8/2007, 8:38:48 AM 版) http://www.mozilla.org/projects/intl/UniversalCharsetDetection.html
- 移転確認 11/11/2019, 9:04:10 AM
- A composite approach to language/encoding detection, Shanjian Li, 11/11/2019, 9:03:59 AM https://www-archive.mozilla.org/projects/intl/universalcharsetdetection

実装#✎

[17] 本家 Mozilla の C++ の実装の他、各言語への移植版が存在しています。

[20] 次に示すのは独立した実装ではなく、他の実装のラッパーとして機能するものです。

標準化#✎

[10] UNIVCHARDET 自体は1実装に過ぎず、何らかの標準でも、標準によって義務付けられた実装でもありませんが、 Web Applications 1.0 は文字符号化の決定算法の中で出現頻度分析に基づく推定の利用を認めており、その具体例として >>1 を挙げています。

HTML5 Charset 判定算法で失敗する例#✎

[9] HTML documents misinterpreted by charset sniffer を参照してください。

Google search: UniversalCharDet