提取HTML代码中文字的C#函数

那夜我喝醉了0

那夜我喝醉了0

2016-01-29 13:34

提取HTML代码中文字的C#函数,提取HTML代码中文字的C#函数
 

/// <summary
  /// 去除HTML标记
  /// </summary
  /// <param name="strHtml"包括HTML的源码 </param
  /// <returns已经去除后的文字</returns
  public static string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @"<script[^]*?.*?</script",

          @"<(/s*)?!?((w+:)?w+)(w+(s*=?s*(([""'])(\[""'tbnr]|[^7])*?7|w+)|.{0})|s)*?(/s*)?",
          @"([rn])[s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);",
          @"&(nbsp|#160);",
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(d+);",
          @"--",
          @"<!--.*n"
        
         };

   string [] aryRep = {
           "",
           "",
           "",
           """,
           "&",
           "<",
           "",
           " ",
           "xa1",//chr(161),
           "xa2",//chr(162),
           "xa3",//chr(163),
           "xa9",//chr(169),
           "",
           "rn",
           ""
          };

(本文来源于图老师网站,更多请访问https://m.tulaoshi.com)

   string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i<aryReg.Length;i++)
   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
   }

   strOutput.Replace("<","");
   strOutput.Replace("","");
   strOutput.Replace("rn","");

(本文来源于图老师网站,更多请访问https://m.tulaoshi.com)


   return strOutput;
  }

展开更多 50%)
分享

猜你喜欢

提取HTML代码中文字的C#函数

电脑网络
提取HTML代码中文字的C#函数

用C#过滤HTML代码的函数

Web开发
用C#过滤HTML代码的函数

s8lol主宰符文怎么配

英雄联盟 网络游戏
s8lol主宰符文怎么配

一个用C#过滤HTML代码的函数

编程语言 网络编程
一个用C#过滤HTML代码的函数

C#中的函数重载

电脑网络
C#中的函数重载

lol偷钱流符文搭配推荐

英雄联盟 网络游戏
lol偷钱流符文搭配推荐

C# Mines(布雷) 代码

编程语言 网络编程
C# Mines(布雷) 代码

mysql 按中文字段排序

编程语言 网络编程
mysql 按中文字段排序

lolAD刺客新符文搭配推荐

英雄联盟
lolAD刺客新符文搭配推荐

一个个人网页自动化生成系统(1)

一个个人网页自动化生成系统(1)

制作精美的flash桌面时钟(2)

制作精美的flash桌面时钟(2)
下拉加载更多内容 ↓