提取HTML代码中文字的C#函数

那夜我喝醉了0

那夜我喝醉了0

2016-01-29 13:34

提取HTML代码中文字的C#函数,提取HTML代码中文字的C#函数
 

/// <summary
  /// 去除HTML标记
  /// </summary
  /// <param name="strHtml"包括HTML的源码 </param
  /// <returns已经去除后的文字</returns
  public static string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @"<script[^]*?.*?</script",

          @"<(/s*)?!?((w+:)?w+)(w+(s*=?s*(([""'])(\[""'tbnr]|[^7])*?7|w+)|.{0})|s)*?(/s*)?",
          @"([rn])[s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);",
          @"&(nbsp|#160);",
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(d+);",
          @"--",
          @"<!--.*n"
        
         };

(本文来源于图老师网站,更多请访问http://m.tulaoshi.com)

   string [] aryRep = {
           "",
           "",
           "",
           """,
           "&",
           "<",
           "",
           " ",
           "xa1",//chr(161),
           "xa2",//chr(162),
           "xa3",//chr(163),
           "xa9",//chr(169),
           "",
           "rn",
           ""
          };

   string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i<aryReg.Length;i++)
   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
   }

(本文来源于图老师网站,更多请访问http://m.tulaoshi.com)

   strOutput.Replace("<","");
   strOutput.Replace("","");
   strOutput.Replace("rn","");


   return strOutput;
  }

展开更多 50%)
分享

猜你喜欢

提取HTML代码中文字的C#函数

电脑网络
提取HTML代码中文字的C#函数

用C#过滤HTML代码的函数

Web开发
用C#过滤HTML代码的函数

s8lol主宰符文怎么配

英雄联盟 网络游戏
s8lol主宰符文怎么配

一个用C#过滤HTML代码的函数

编程语言 网络编程
一个用C#过滤HTML代码的函数

C#中的函数重载

电脑网络
C#中的函数重载

lol偷钱流符文搭配推荐

英雄联盟 网络游戏
lol偷钱流符文搭配推荐

mysql 按中文字段排序

编程语言 网络编程
mysql 按中文字段排序

周末中文字体设计

平面设计 海报设计 广告设计 画报设计 签名设计 服装设计 名片设计 画册设计 版式设计 商标设计
周末中文字体设计

lolAD刺客新符文搭配推荐

英雄联盟
lolAD刺客新符文搭配推荐

一个个人网页自动化生成系统(1)

一个个人网页自动化生成系统(1)

制作精美的flash桌面时钟(2)

制作精美的flash桌面时钟(2)
下拉加载更多内容 ↓