[1] HTML 4 では、[CODE[URI]] という語を [URI] で定義されている意味で使います。と に書いてあります。 [URI] は HTML 4.01 では [[RFC 2396]] のことです。 と、これはちょっと困ったことになります。 RFC 2396 では [CODE[[[URI]]]] と [CODE[[[URI参照]]]]を区別しているのです。 RFC 2396 の4章によれば、 URI 参照から[[素片識別子]]を取り除き、 [[相対URI]] は解決して得た[[絶対URI]] こそが [CODE[the URI]] であるというのです。 これじゃあ、 HTML 4 でたとえば [CODE(HTMLa)[[[href]]]] 属性に相対 URI も素片識別子も使えなくなっちゃう。。。 [2] URI の紹介のところ では相対 URI も素片識別子も含めて URI と言っています。 これが本来の意図であることは明らかです。 下手に RFC を参照せずにちゃんと説明しておけば良かったものを。。。 [3] まあ、 URI 関係の概念と名前は歴史的に泥々してますからあんまり責めちゃ可愛そうではあります。 ちなみに [[XHTML 1]] はちゃんと [CODE[URI 参照]]と書いていたりします。。。 [[#comment]] * %URI; 型 (HTML 4) [4] HTML 4 では、 [CODE(SGML)[%URI;]] 型の属性の値は [DFN[URI]] (>>1) です。 [5] 仕様書: - [[HTML 4]] -- -- [[厳密DTD]] -- [[移行用DTD]] -- [CITE[B.10 Notes on security]] -[[XHTML 1.0]] -- [CSECTION[A.1.1. XHTML-1.0-Strict]] -- [CSECTION[A.1.2. XHTML-1.0-Transitional]] -- [CSECTION[A.1.3. XHTML-1.0-Frameset]] - [[XHTML m12n]] --[CSECTION[4.3. Attribute Types]] [[HTML 4.01]] も [[XHTML m12n]] も [[RFC 2396]] を参照しています (>>1) が、 [[RFC 1738]] や [[RFC 1808]] も参考文献一覧にしぶとく残っています。 [6] URI は一般に大文字・小文字を区別します。 部分部分は区別しないこともありますが、全体としては区別します。 [[#comment]] ** 非 ASCII 文字 [7] HTML 4 附属書 B (参考) には、 URI 属性値の非 ASCII 文字の取り扱いについての推奨事項が書かれています。 - HTML 4 [CITE[B.2.1 Non-ASCII characters in URI attribute values]] 要点: - URI は非 ASCII 文字を含みませんが、著者は [CODE(SGML)[%URI]] 属性値に非 ASCII 文字を含む URI のようなものを指定しちゃいます。 -- '''違法'''な例: [SAMP(HTML)[...]] [SRC[HTML 4 B.2.1 改]] - UA は非 ASCII 文字を次の通り変換することを[RUBYB[推奨][recommend]]します。 -= [[UTF-8]] ([[RFC 2279]]) で表現する -= 問題のバイトを [[URI符号化]]する - こうすれば、 HTML 文書の[[文字符号化]]とは独立な、 構文的に合法の URI ([[RFC 1738]] + [[RFC 2141]]) を生成できます。 - 古い UA は URI を受信した文書符号化で処理します。 古い HTML 文書はこれに依存していて、文書の符号を変換するとおかしくなります。 -- 古い文書も扱いたい UA は、合法でない文字を含む URI を受信したら、最初に UTF-8 にしてみて、 うまくいかなかった時だけ元の符号化を使ってみるべきです。 - [CODE(HTMLa)[[[name]]]] 属性値にも同じ UTF-8 の符号化を適用するべきです。 [8] 突っ込み: - 非 ASCII 文字のみならず、一部の ASCII 文字と ASCII の非[[印字可能文字]]も URI 逃避符号化しないと、合法な [[URI参照]]にはなりません。 - なんで RFC 2141 なんて参照しているんだか。 (お前 [[URN]] て言いたいだけちゃうんか?) [[RFC 2396]] を参照するべきですが、修正し忘れでしょうか。 - HTML 4 の当時に URI を UTF-8 + URI 逃避符号化というのは極々稀々であったはずです。 W3C の i18n な人達としては UTF-8 に誘導したいのでしょうが (後の [[IRI]])、 [Q[older]] とかお茶を濁すのではなく、 もうちょっと丁寧に現状を説明するべきだったのではないでしょうか。 - [CODE(HTMLa)[name]] 属性云々は意味不明です。[[素片識別子]]として使う時は UTF-8 + URI 逃避符号化せよという意味でしょうか。 ** 歴史 [11] [[XHTML2]] の最初の[[作業原案]]では [[XML Schema]] 第1版[[勧告]]の [CODE(XML)@en[[[anyURI]]]] であるとされていました。 ;; [CITE@en[- Module Definition Conventions]] ([TIME[2002-08-06 00:20:43 +09:00]] 版) * アンド記号の入った URI [9] HTML 4 は、次のように述べています。 > [[フォーム]]の[[提出]]で構築される [[URI]] は、 [CODE(HTMLe)[[[a]]]] [CODE(HTMLa)[[[href]]]] などでも使うことがあります。 運が悪くも [CODE(char)[&]] をフォーム欄の分離子に使うと[[属性値表記]]の中で逃避して [SAMP(SGML)[&]] のように書かなければなりません。 > [[HTTP]] 鯖実装者と特に [[CGI]] 実装者は、 [CODE(char)[&]] の代わりに [CODE(char)[;]] を使うのにも対応することを推奨します。 HTML 4 [CITE[B.2.2 Ampersands in URI attribute values]] より要約 [10] この規定に触発されたのかどうかは知りませんが、 最近では [[CGIスクリプト]]の実装で [CODE(char)[&]] と [CODE(char)[;]] を等しく [CODE(ABNF)[[[query]]]] の分離子とみなすのが普通になっているようです。 (HTTP や CGI の鯖がそう実装しているのは見たことがありません。 というか HTTP や CGI の鯖が [CODE(ABNF)[query]] を解釈するのは見たことがありません。。。) ただ、 [CODE(HTMLe)[[[form]]]] 要素の属性か何かで [[XForms]] のように [CODE(MIME)[[[application/x-www-form-urlencoded]]]] の分離子を指定する方法を用意しておけば、 もっと広がったのではないかと思いますのに残念です。 フォームの提出時とアンカーをたどった時とで URI の形が変わってしまうのは、なんとも美しくありません。 [[#comment]] * メモ