用C#过滤HTML代码的函数

heqiang347

heqiang347

2016-02-19 20:10

下面图老师小编跟大家分享一个简单易学的用C#过滤HTML代码的函数教程,get新技能是需要行动的,喜欢的朋友赶紧收藏起来学习下吧!

  正好有时间所以用C#写了一段正则表达式,作用是删除 Page 里面Code 中的 HTML标签,这在做采集信息,消除其中的HTML很有用处。

(本文来源于图老师网站,更多请访问http://m.tulaoshi.com/webkaifa/)

以下是引用片段:
publicstringcheckStr(stringhtml)
   {
     System.Text.RegularExpressions.Regexregex1=newSystem.Text.RegularExpressions.Regex(@"script[sS]+/script*",System.Text.RegularExpressions.RegexOptions.IgnoreCase);
     System.Text.RegularExpressions.Regexregex2=newSystem.Text.RegularExpressions.Regex(@"href*=*[sS]*script*:",System.Text.RegularExpressions.RegexOptions.IgnoreCase);
     System.Text.RegularExpressions.Regexregex3=newSystem.Text.RegularExpressions.Regex(@"no[sS]*=",System.Text.RegularExpressions.RegexOptions.IgnoreCase);
     System.Text.RegularExpressions.Regexregex4=newSystem.Text.RegularExpressions.Regex(@"iframe[sS]+/iframe*",System.Text.RegularExpressions.RegexOptions.IgnoreCase);
     System.Text.RegularExpressions.Regexregex5=newSystem.Text.RegularExpressions.Regex(@"frameset[sS]+/frameset*",System.Text.RegularExpressions.RegexOptions.IgnoreCase);
     System.Text.RegularExpressions.Regexregex6=newSystem.Text.RegularExpressions.Regex(@"img[^]+",System.Text.RegularExpressions.RegexOptions.IgnoreCase); 
     System.Text.RegularExpressions.Regexregex7=newSystem.Text.RegularExpressions.Regex(@"/p",System.Text.RegularExpressions.RegexOptions.IgnoreCase);
     System.Text.RegularExpressions.Regexregex8=newSystem.Text.RegularExpressions.Regex(@"p",System.Text.RegularExpressions.RegexOptions.IgnoreCase);
     System.Text.RegularExpressions.Regexregex9=newSystem.Text.RegularExpressions.Regex(@"[^]*",System.Text.RegularExpressions.RegexOptions.IgnoreCase);
     html=regex1.Replace(html,"");//过滤script/script标记
     html=regex2.Replace(html,"");//过滤href=javascript:(A)属性
     html=regex3.Replace(html,"_disibledevent=");//过滤其它控件的on...事件
     html=regex4.Replace(html,"");//过滤iframe
     html=regex5.Replace(html,"");//过滤frameset
     html=regex6.Replace(html,"");//过滤frameset
     html=regex7.Replace(html,"");//过滤frameset
     html=regex8.Replace(html,"");//过滤frameset
     html=regex9.Replace(html,"");
     html=html.Replace("","");
     html=html.Replace("/strong","");
     html=html.Replace("strong","");
     returnhtml;
}

(本文来源于图老师网站,更多请访问http://m.tulaoshi.com/webkaifa/)
展开更多 50%)
分享

猜你喜欢

用C#过滤HTML代码的函数

Web开发
用C#过滤HTML代码的函数

一个用C#过滤HTML代码的函数

编程语言 网络编程
一个用C#过滤HTML代码的函数

s8lol主宰符文怎么配

英雄联盟 网络游戏
s8lol主宰符文怎么配

提取HTML代码中文字的C#函数

电脑网络
提取HTML代码中文字的C#函数

c#中过滤html的正则表达式

Web开发
c#中过滤html的正则表达式

lol偷钱流符文搭配推荐

英雄联盟 网络游戏
lol偷钱流符文搭配推荐

用C#操纵IIS(代码)

编程语言 网络编程
用C#操纵IIS(代码)

用正则表达式过滤html代码

Web开发
用正则表达式过滤html代码

lolAD刺客新符文搭配推荐

英雄联盟
lolAD刺客新符文搭配推荐

达内金牌讲师唐亮Java语言细节(下)

达内金牌讲师唐亮Java语言细节(下)

VC开发多语言界面支持的简单方法

VC开发多语言界面支持的简单方法
下拉加载更多内容 ↓