教你使用正则表达式
作者:赖锋
下载源代码
很久没有VCKbase发表文章了,这次发表一些比较基础的文章吧!看过"保证你现在和未来不失业的十种关键技术"这篇文章了吧,这次我就拿出一个不会让你失业的编程技术讲讲吧,老虾们千万不要拿鸡蛋砸我,我只是写给初学者的!
关于正则表达式的教程和用法网上有很多的资源,基本的用法我讲了也是浪费你的眼力,所以我会以一个实例来教你学习正则表达式,我两年前做的一个MIS中使用过正则式,检验用户输入的日期是否为正确的日期格式!分析完这个正则表达式后,对于正则表达式你绝对会有一个深深的认识!但是还不能说你精通,当你可能用正则表达式写一个编译器的时候,你就可以精通了!
“磨刀不误砍柴工”,要使用正则表达式,我们还要使用支持正则表达式的语言,解释性语言Ruby,Perl,Python等都支持正则表达式,C#,Java,VB.net等也支持正则表达式,C++还需要第三方类库才能支持,VC.net提供了一个很好的正则表达式类库CATLRegExp(全世界效率最高的正则表达式库哦),可是却不能在VC6上使用,要在VC6上使用,可以使用VBS(Microsoft VBScript Regular Expression 5.5)来处理正则表达式,这是一个COM,拿一个COM来用我还是情愿用Boost库.
使用Boost库的时候,你需要编译库后你才能使用,不过这很容易。
1.下载Boost库
3.设定环境变量(以我本机的环境变量设定为例)
2.进入 boost_1_32_0libsregexbuild 目录中,你可以看到vc6.mak文件 nmake vc6.mak就可以了,跟着会产生lib和dll文件,把它拷贝到你的程序目录下就可使用了!
你也可以全部编译,不过我只需要正则表达式库,所以我只编译这部分!
好了,砍柴刀磨好了!我们就开始正则表达式的实践吧!
当时我负责的MIS是医院的一个血液检验输入模块,要求输入的日期必须是合法的,这是第一要求,不然检验单就会报废。输入日期是可以2006.04.02 或 2006/04/02 或 2006.4.2 或 2006/4/2 的格式,而且日期还是要合法的,比如说不可以出现 2006.02.31, 2006.4.41 这样的日期,不排除输入人员工作繁记忙输入错误会出现这种情况。
好了,用正则表达式如何解决这个问题,首先正则表达式是一个对文本匹配模式的使用方法,记得正则表达式的关键字用法是没有用的,各种语言的正则表达式中的关键字用法是不同的,要认识文本中字符的模式.比如说对以上日期的表示可以用正则表达式表示为
"^\d{4}[\s\.-/]\d{1,2}[\s\.-/]\d{1,2}$"
但这是完全错误的,用文字对这句正则表达式的描述为字符串是由三组数字组成,每一组由四个数组成,第二和第三组由一个或两个数字组成,中间带有空格或"/",4003.9/12,3344.0.40 都会被判为合法的字符,这就是错误的用法!有什么或以判别呢!
有闰日的年份叫闰年,一般年份365天,闰年为366天(二月则有29天),闰年的计算方法:公元纪年的年数可以被四整除,即为闰年;被100整除而不能被400整除为平年;被100整除也可被400整除的为闰年.则这样我们可以这样设计正则表达式,第一个是要求其格式统一,第二个是要求其能正确表达闰年!1000/2/29 合法, 2000/2/29 合法,1900/2/29 非法.
想一想,一年中不论闰年或平年有的月份都是固定的,1,3,5,7,8,10,12月都是 31天, 4, 6, 9, 11 月都是30 天, 2 月可能为 28 或 29天,我们则可以这样判断,除 2 月外, 1 到 12 月中日期为 29, 30 天内的都为合法,1,3,5,7,8,10,12月为31天的都为合法, 1 月到 12 月为 28 天的都为合法, 剩下的只要判断当年是否为闰年就行了,是闰年 2月29日就合法,否则非法!!!
呵,结果就出来了,用"或"把三条正则表达式组合起来就行了,第一条是判断除2月外日期的表达式,第二条是1到12 月都是1-28天的表达式,最后一条是判断是否闰年及合法2月的表达式,若符合其中一条的都为正确的日期.
第一条可以这样写除 2 月外 1 到 12 月都为 30 天的表达式为 (?:0?[1,3-9]|1[0-2])-(?:29|30)
除2 月外 1,3,5,7,8,10,12月都是 31天, ((?:0?[13578]|1[02])-31), 两条合并起来就是:
(?:(?:0?[1,3-9]|1[0-2])-(?:29|30)|((?:0?[13578]|1[02])-31))
第二条可以这样写 (?:0?[1-9]|1[0-2])-(?:0?[1-9]|1d|2[0-8])
第三条表达式就是要求表示闰年了,能被4 整除的四位数是怎么组成的呢? 可以看出,四位数中最后两位能被四整除都可以得出这个四位数能被4整除,100内为4的倍数的值为04,08,12,16,20,24,28,32,36,40,44,48,52,56,60,64,68,72,76,80,84,88,92,96,能被100与400整除的四位数则可以为##00的形式了
则这样的闰年判别可以为:
(dd(?:0[48]|[2468][048]|[13579][26]))与 (?:0[48]00|[2468][0