【图】正确使用XHTML的冒险

　　JunChen注：omemo.net网站似乎已经挂掉，链接都失效了。文章写得非常不错，一直是Best of 456 Berea Street。在这里发布的时候我进行了少量代码上和翻译上的修改，以忠实原著。

　　我使用XHTML有些年了，但直至去年夏天我才着眼于如何正确使用，那就是说，以application/xhtml+xml的MIME类型来伺服(server)它。虽然我遇到了这些问题，但我知道问题远非如此。就如你即将发现的一样，当你开始使用真正的XHTML，你会遭遇很多似乎细小但让人困惑的问题。

　　请注意这不是一篇讨论支持或反对使用XHTML的文章。我只是写下我所知道的潜在的易犯错误，并且让你自己来决定自己的选择：HTML 4.01，为所有浏览器伺服为text/html的XHTML 1.0或者为能够处理其的浏览器伺服为application/xhtml+xml而其他浏览器则伺服为text/html的XHTML 1.0。否则有些东西会完全不一样。

　　只有在问题发生的时候，我才有机会去了解和认识这些东西。有些情况下我必须花很多时间来查找问题和求助于其他人，来寻求一个解决方案。但我在其中学到不少东西，我会把我已经使用XHTML后应该知道的都告诉你。

　　注意我这里提及的问题只会发生在能正确处理application/xhtml+xml MIME类型的用户代理中，而因此XHTML被作为XML。这也可能是这里不提及XHTML的早期使用的原因——很少有人使用这样的浏览器，所以几乎不会有人因只伺服为text/html的XHTML所烦忧。

　　今天，实际上把XHTML伺服为application/xhtml+xml正慢慢变得平常。我所知道的理由有两个：

　　使用Firefox，Mozilla，Opera，Safari和其他兼容XHTML浏览器的人数增加了很多，所以你不再仅仅为自己和伙伴这样做。嗯。或许你就这样做，当将影响更多人。

　　在web开发者之间，对XHTML的真正面目是什么的觉醒越来越多了。使用XHTML已经有多次多时的热烈的讨论，尤其是伺服为text/html的时候。如果你参与了任何一次讨论，你知道我在说什么。

　　假如你，像我，决定实现某些类型的content negotiation和在传送XHTML的时候使用正确的媒体类型，你需要知道什么能（和将）在你发布的文档中发生，并且知道怎样避免问题的发生。对于对content negotiation同进行content negotiation的脚本例子有兴趣的读者，我推荐你阅读Content Negotiation和Serving up XHTML with the correct MIME type。还有很多这种类型的文章，但这是我读到的最精彩的两篇。

　　每一个基本的教程都有一些HTML和XHTML的明显区别：元素和属性名字使用小写，属性值总要用引号。不要使用简化属性，确保所有的元素都有结束标签和没有不正确的嵌套等等。但是，当XHTML伺服为application/xhtml+xml时还需要知道更多东西。

　　良好的结构是必须的

　　文档必须是良好的结构（well-formed）的XML（跟合法的（valid）XHTML不必然相同）。就是必须，不是可能。

　　如果文档结构不好，符合标准的浏览器（当前我知道Mozilla，Firefox，Netscape，Camino，Opera，Safari和OmniWeb——相当多的浏览器除了IE）将会显示错误信息并且以某种方式中止处理文档。

　　此外，这还意味着不再使用未编码的"&"号。

　　XML声明可能是必须的

　　如果要使用UTF-8或者UTF-16以外的变法，必须要XML声明，除非HTTP头已经提供编码。

　　在HTTP头中是否要指定字符编码有些模糊，Architecture of the World Wide Web, Volume One: Media Types for XML这样写的：总体上，不应该在协议头为XML数据指定字符编码，因为数据本身已描述。

　　另一方面，XHTML 1.0, Second Edition: Character Encoding写到：

　　为了让文档使用指定的字符编码，最好的办法是保证web服务器发送正确的头。

　　就是说，在XML声明中指定字符编码是好的习惯：

　　？xml version="1.0" encoding="iso-8859-1"？

　　只有五个实体是安全的

　　只有五个预定义的实体（<, >, &, ", 和'）的支持是有保证的。其他的可能完全被忽略或者直接输出。比如，如果XHTML文档包含如 或者”的实体，Safari会直接地输出。Opera反而选择忽略未知的实体，同时Mozila家族会认得这些实体并且就像HTML中“如果文档引用公共的映射浏览器伪DTD目录中的标识符并且没有单独声明的文档”来处理。

　　使用UTF-8字符编码是最受推荐的，让你（几乎）可以使用你需要键入文档的任意字符，不需要实体或者字符编号。如果你不能或不愿使用UTF-8，数字式的字符编号是可以支持和安全使用的。

　　SGML式注释的内容可能会被忽略

　　SGML注释（HTML风格注释， !-- 注释 --）可能会（并且会）被浏览器当作注释，就算是在script或者style元素内部使用。

　　在HTML中，普遍地把script和style的内容装入注释中，为的是在不认识script或style元素的浏览器中隐藏他们，并且在页面上把其内容生成平白文本。

　　在XHTML中，这样做会引起浏览器忽略掉注释里的任何内容。

　　在老的浏览器中隐藏script和style的习惯可以追溯到1990年代中期。我的经验是，有如此表现的浏览器是十分罕见的，所以你可以安全地忽略它们，并且停止在脚本和样式中装入SGML式注释，就算你使用的是HTML。

　　脚本和样式元素的内容也被当作XML

　　样式和脚本元素是PCDATA（parsed character data，解析字符数据）块，不是CDATA（character data，字符数据）块。因此，在其内看起来像XML的任何东西都会被当作XML来解析，并且会引发错误除非是良构的。

　　为了在script或style块中使用、&或者--，你需要用CDATA ：

script type="text/javascript"
![CDATA[
...
]]
/script

　　在CDATA里，你可以任何顺序的字符，它们不会被当作XML来解析（除了结束CDATA部分]]）。

　　需要以text/html发送的文档中，CDATA部分的起始和结束标签需要注释掉，以便在不能处理CDATA部分的浏览器中隐藏：

script type="text/javascript"
// ![CDATA[
...
// ]]
/script
style type="text/css"
/* ![CDATA[ */
...
/* ]] */
/style

　　如果要确保很老的浏览器隐藏CDATA部分，需要使用更为复杂的方法，像在Ian Hickson的Sending XHTML as text/html Considered Harmful中描述的那样：

script type="text/javascript"
!--//--![CDATA[//!--
...
//--!]]
/script
style type="text/css"
!--/*--![CDATA[/*!--*/
...
/*]]*/--
/style

　　一个更好的办法可能是在发送text/html的文档前使用content negotiation脚本来删除任何CDATA部分。

　　当然，最聪明和安全的途径是把所有的CSS和JavaScript都移动到外部文件中，但不总是现实的做法。

　　没有会自动补全的元素

　　在HTML中，假如表格的tbody元素漏写的话浏览器会自动补全，而XHTML不会。如果你没有清楚地添加tbody，它就不会出现。在编写CSS选择器和JavaScript的时候请铭记在心。

　　用document.write编写的脚本不再工作

　　在XHTML中使用JavaScript，document.write不会工作。Ian Hickson在Why document.write() doesn’t work in XML解释了原因。你需要使用document.createElementNS()代替。关于更多可以在Experts Exchange中的论坛主题中找到。

　　这也是Google AdSense不在XHTML中工作的原因之一。那些希望以application/xhtml+xml伺服XHTML并且使用Google广告的人，这儿有一个解决办法：Simon Jessey的Making AdSense work with XHTML。尽管有点麻烦，但还是工作了（我在这里也使用了），同时被Google所认可。

　　引入样式元素

　　在XHTML中，为了兼容定义CSS规则的XML方法，你应该使用XML样式表声明（访问 XHTML 1.0, Second Edition: Referencing Style Elements when serving as XML的XML样式表声明和Associating Style Sheets with XML documents的xml-stylesheet处理说明）。要载入外部CSS文件，我们需要使用style元素，同时应该使用XML样式表声明来引入样式元素。为此，使用id属性给style元素一个分解的标识符，然后在XML样式表声明中引入该标识符：

？xml-stylesheet href=”stylesheet1.css” type=”text/css”？
？xml-stylesheet href=”#stylesheet2” type=”text/css”？
!DOCTYPE html
PUBLIC “-//W3C//DTD
XHTML 1.0 Strict//EN”
“http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd”
html xmlns=”http://www.w3.org/1999/xhtml” xml:lang=”en”
lang=”en”
head
titleXML stylesheet declaration/title
style type=”text/css” id=”stylesheet2”
@import “stylesheet2.css”;
/style
/head

　　我不知道在实际中究竟有多必要，并且不使用XML样式表声明的话会有什么问题。或许有人会指点我的。

　　CSS的应用规则有些不一样

　　CSS应用到body的性质（property）并不应用到XHTML的整个文档。最值得注意的是应用背景颜色或者图片。在HTML中，应用到body元素的背景将会覆盖整个页面。在XHTML中，你必须同时样式化html。在Juicy Studio的CSS body Element Test中有这个行为的演示。

　　在XHTML中作为CSS规则的元素和属性名字是大小写敏感的（而且必须是小写的）。避免问题最简单的办法是，不管在HTML，XHTML还是CSS中所有东西都保持小写。

　　有挑战，但不是不可能

　　当我开始为兼容的浏览器伺服XHTML为application/xhtml+xml时，在作出决定前假如我能读到想这篇一样的文章，或许我的头痛可以减轻不少。我甚至考虑使用HTML 4.01 Strict。虽然如此，我还是从经验中学到不少，而学习总是一个好东西。

　　正确地使用真正的XHTML，十分希望这篇文章能为你提供一些更有用的信息，并且可以为是否需要走这条路提供更多有根据的决定。

　　HTML和XHTML可能比我在这里提到的还有更多地不同，所以在这里把你在使用application/xhtml+xml的XHTML时遇到的问题提出来，如果你知道任何的错误或者忽略，务必告诉我。