海野秀之(うんのひでゆき)の外部記憶
Twitter (twilog) / RSS / アンテナ / ぶくま
最近、ちょっとした CGI を書く機会があって、
Content-Type: text/html; charset=EUC-JP
とか出力させつつ、ふと、"EUC-JP" ってのは正式な名称なのか、許容されてはいるけど、 本当はあかん書き方だったりするのか、どうなんだろうと思ったり。 (関係ないけど、 「text/html じゃなくて Text/Html と書け」と叱られた遠い昔の記憶もあるのだが……)
Setting the HTTP charset parameter (W3C) によれば、
In theory, any character encoding that has been registered with IANA can be used, but there is no browser that understands all of them.
なんだそうな。 EUC-JP がそこいらのブラウザに受け入れられているらしいのは経験上わかっているのだが、 はて、正式名称はなんだ?
http://www.iana.org/assignments/character-sets をみて、ひっくりかえるはめに。
Name: Extended_UNIX_Code_Packed_Format_for_Japanese MIBenum: 18 Source: Standardized by OSF, UNIX International, and UNIX Systems Laboratories Pacific. Uses ISO 2022 rules to select code set 0: US-ASCII (a single 7-bit byte set) code set 1: JIS X0208-1990 (a double 8-bit byte set) restricted to A0-FF in both bytes code set 2: Half Width Katakana (a single 7-bit byte set) requiring SS2 as the character prefix code set 3: JIS X0212-1990 (a double 7-bit byte set) restricted to A0-FF in both bytes requiring SS3 as the character prefix Alias: csEUCPkdFmtJapanese Alias: EUC-JP (preferred MIME name)
ひでぇ! 'Extended_UNIX_Code_Packed_Format_for_Japanese' なんて、 かえってブラウザに理解してもらえなさそうだ。Shift_JIS が正式名称として登録されて いるのとくらべると、えらい違いですなぁ。
個人的には、まあ、"EUC-JP" でいいだろという結論にいたりました。 日本語の CGI 作ってて使いそうなのは以下のものでしょうか。
Shift_JIS がアンダー・スコア区切りで、 EUC-JP が '-' 区切りなところが妙な味なのは周知の通り。