【图】把Word转为简洁的html的若干种方法

　　word可以直接另存为 htm，但即使是另存为 html 也会有大量的废代码。以前我一般用 dreamweaver 的 clean up html 来处理，先处理 word 特有标签，然后删除一些 font,b,span 等。进一步，在 editplus 里面用正则进行处理，最后得到我想要的干净的html 代码。当然最完美的办法就是拷贝文字出来，自己用文本编辑器书写htm标签，：）

　　今天又看到lifehacker这几种word 2 clean htm方法：

　　1.使用这个HTML Tidy Library Project开源软件来处理。

　　2.微软官方站点也有个Office 2000 HTML Filter 2.0工具，可以用来处理掉word2000转html时出现的多余代码。

　　3.使用这个Word HTML Cleaner 在线工具来处理。只能处理word2000以下版本。

　　4.有人给出了正则表达式（其实，上面的各种软件也都是用正则来解决的）

　　删除不需要的标签

　　[/]？(font|span|xml|[ovwxp]:w+)[^]*？
- replace any matches with the empty string

　　删除class,style...等不需要的属性

　　详细解释在Clean Word HTML using Regular Expressions