正则中的括号()、[]、{}含义和用法

字符	描述
\	将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\\' 匹配 "\" 而 "\(" 则匹配 "("。
^	匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性，^ 也匹配 '\n' 或 '\r' 之后的位置。
$	匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性，$ 也匹配 '\n' 或 '\r' 之前的位置。
*	匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。
+	匹配前面的子表达式一次或多次。例如，'zo+' 能匹配 "zo" 以及 "zoo"，但不能匹配 "z"。+ 等价于 {1,}。
?	匹配前面的子表达式零次或一次。例如，"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。
{n}	n 是一个非负整数。匹配确定的 n 次。例如，'o{2}' 不能匹配 "Bob" 中的 'o'，但是能匹配 "food" 中的两个 o。
{n,}	n 是一个非负整数。至少匹配n 次。例如，'o{2,}' 不能匹配 "Bob" 中的 'o'，但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
{n,m}	m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次。例如，"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。
?	当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 "oooo"，'o+?' 将匹配单个 "o"，而 'o+' 将匹配所有 'o'。
.	匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符，请使用象 '[.\n]' 的模式。
(pattern)	匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到，在VBScript 中使用 SubMatches 集合，在JScript 中则使用 $0…$9 属性。要匹配圆括号字符，请使用 '$' 或 '$'。
(?:pattern)	匹配 pattern 但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用 "或" 字符 (\|) 来组合一个模式的各个部分是很有用。例如， 'industr(?:y\|ies) 就是一个比 'industry\|industries' 更简略的表达式。
(?=pattern)	正向预查，在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，'Windows (?=95\|98\|NT\|2000)' 能匹配 "Windows 2000" 中的 "Windows" ，但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern)	负向预查，在任何不匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如'Windows (?!95\|98\|NT\|2000)' 能匹配 "Windows 3.1" 中的 "Windows"，但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始
x\|y	匹配 x 或 y。例如，'z\|food' 能匹配 "z" 或 "food"。'(z\|f)ood' 则匹配 "zood" 或 "food"。
[xyz]	字符集合。匹配所包含的任意一个字符。例如， '[abc]' 可以匹配 "plain" 中的 'a'。
[^xyz]	负值字符集合。匹配未包含的任意字符。例如， '[^abc]' 可以匹配 "plain" 中的'p'。
[a-z]	字符范围。匹配指定范围内的任意字符。例如，'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。
[^a-z]	负值字符范围。匹配任何不在指定范围内的任意字符。例如，'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。
	匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\cx	匹配由 x 指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 'c' 字符。
\d	匹配一个数字字符。等价于 [0-9]。
\D	匹配一个非数字字符。等价于 [^0-9]。
\f	匹配一个换页符。等价于 \x0c 和 \cL。
\n	匹配一个换行符。等价于 \x0a 和 \cJ。
\r	匹配一个回车符。等价于 \x0d 和 \cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于 \x09 和 \cI。
\v	匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w	匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
\W	匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。
\xn	匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，'\x41' 匹配 "A"。'\x041' 则等价于 '\x04' & "1"。正则表达式中可以使用 ASCII 编码。
\num	匹配 num，其中 num 是一个正整数。对所获取的匹配的引用。例如，'(.)\1' 匹配两个连续的相同字符。
\n	标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n个获取的子表达式，则 n 为向后引用。否则，如果 n 为八进制数字 (0-7)，则 n 为一个八进制转义值。
\nm	标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式，则 nm 为向后引用。如果 \nm 之前至少有 n 个获取，则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足，若 n 和 m 均为八进制数字 (0-7)，则 \nm 将匹配八进制转义值 nm。
\nml	如果 n 为八进制数字 (0-3)，且 m 和 l 均为八进制数字 (0-7)，则匹配八进制转义值 nml。
/i	使正则表达式对大小写不敏感, (?-i)是关闭大小写不敏感 (?i)te(?-i)st应该匹配TEst，但是不能匹配teST或TEST.
/s	开启“单行模式”，即点号“.”匹配新行符
/m	开启“多行模式”，即“^”和“$”匹配新行符的前面和后面的位置。
^[0-9]*$	只能输入数字
^\d{n}$	只能输入n位的数字
^\d{n,}$	只能输入至少n位的数字
^\d{m,n}$	只能输入m~n位的数字
^(0\|[1-9][0-9]*)$	只能输入零和非零开头的数字
^[0-9]+(.[0-9]{2})?$	只能输入有两位小数的正实数
^[0-9]+(.[0-9]{1,3})?$	只能输入有1~3位小数的正实数
^\+?[1-9][0-9]*$	只能输入非零的正整数
^\-[1-9][]0-9"*$	只能输入非零的负整数
^.{3}$	只能输入长度为3的字符
^[A-Za-z]+$	只能输入由26个英文字母组成的字符串
^[A-Za-z0-9]+$	只能输入由数字和26个英文字母组成的字符串
^\w+$	只能输入由数字、26个英文字母或者下划线组成的字符串
^[a-zA-Z]\w{5,17}$	验证用户密码：以字母开头，长度在6~18之间，只能包含字符、数字和下划线。
[^%&',;=?$\x22]+	验证是否含有^%&',;=?$\"等字符
^[\u4e00-\u9fa5]{0,}$	只能输入汉字
^\w+([-+.]\w+)@\w+([-.]\w+)\.\w+([-.]\w+)*$	验证Email地址
^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$	验证InternetURL
^\d{15}\|\d{18}$	验证身份证号（15位或18位数字）
^((2[0-4]\d\|25[0-5]\|[01]?\d\d?)\.){3}(2[0-4]\d\|25[0-5]\|[01]?\d\d?)$	验证IP地址
(\w)\1	匹配两个两个重叠出现的字符例如，"aabbc11asd"，返回结果为aa bb 11三组match
<(?[^\s>]+)[^>]>.>	匹配成对的HTML标签
(?!)	不出现，负声明下例演示如何取得一个标签对中的全部内容，即使其中包含别的HTML tag。 string newsContent = @"url:test Regex."; Regex regEnd = new Regex(@"<\sa[^>]>([^<]\|<(?!/a))<\s/a\s*>",RegexOptions.Multiline);

Tags: 正则表达式

分类:技术文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 159

正则表达式之任意字符

作者:admin 日期:2021-12-25

注：元字符包括\ | ( ) [ ] { } ^ $ * + ? . )

匹配中文字符的正则表达式： [\u4e00-\u9fa5]
评注：匹配中文还真是个头疼的事，有了这个表达式就好办了
匹配双字节字符(包括汉字在内)：[^\x00-\xff]
评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）
匹配空白行的正则表达式：\n\s*\r
评注：可以用来删除空白行
匹配HTML标记的正则表达式：<(\S*?)[^>]*>.*?</>|<.*? />
评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力
匹配首尾空白字符的正则表达式：^\s*|\s*$
评注：可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式
匹配Email地址的正则表达式：\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
评注：表单验证时很实用
匹配网址URL的正则表达式：[a-zA-z]+://[^\s]*
评注：网上流传的版本功能很有限，上面这个基本可以满足需求
匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]$
评注：表单验证时很实用
匹配国内电话号码：\d-\d|\d-\d
评注：匹配形式如 0511-4405222 或 021-87888822
匹配腾讯QQ号：[1-9][0-9]
评注：腾讯QQ号从10000开始
匹配中国邮政编码：[1-9]\d(?!\d)
评注：中国邮政编码为6位数字
匹配身份证：\d|\d
评注：中国的身份证为15位或18位
匹配ip地址：\d+\.\d+\.\d+\.\d+
评注：提取ip地址时有用
匹配特定数字：
^[1-9]\d*$　　 //匹配正整数
^-[1-9]\d*$ 　 //匹配负整数
^-?[1-9]\d*$　　 //匹配整数
^[1-9]\d*|0$　 //匹配非负整数（正整数 + 0）
^-[1-9]\d*|0$　　 //匹配非正整数（负整数 + 0）
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$　　 //匹配正浮点数
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$　 //匹配负浮点数
^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$　 //匹配浮点数
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$　　 //匹配非负浮点数（正浮点数 + 0）
^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$　　//匹配非正浮点数（负浮点数 + 0）
评注：处理大量数据时有用，具体应用时注意修正
匹配特定字符串：
^[A-Za-z]+$　　//匹配由26个英文字母组成的字符串
^[A-Z]+$　　//匹配由26个英文字母的大写组成的字符串
^[a-z]+$　　//匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$　　//匹配由数字和26个英文字母组成的字符串
^\w+$　　//匹配由数字、26个英文字母或者下划线组成的字符串
评注：最基本也是最常用的一些表达式

今天在Java中想使用正则表达式来获取一段文本中的任意字符。于是很随意得就写出如下匹配规则：

(.*)

结果运行之后才发现，无法获得换行之后的文本。于是查了一下手册，才发现正则表达式中，“.”(点符号)匹配的是除了换行符“\n”以外的所有字符。同时，手册上还有一句话：要匹配包括 ‘\n’ 在内的任何字符，请使用像 ‘[.\n]’ 的模式。于是我将正则表达式的匹配规则修改如下：

([.\n]*)

当然，如果是在java程序中直接写到话，需要改为([.\\n]*)

结果再次运行程序，发现什么内容也取不到了。我百思不得其解，又将其修改为如下规则：

([.|\n]*) 以及 ([\n.]*)

结果还是不行，什么内容都取不到。看来点符号和换行符卯上劲了～
然后上网一查，虽然没有查出上述规则到底是什么地方出问题了，但是查出了一个解决办法，经过一试，果然可以匹配包括换行符在内的任意字符，以下为正确的正则表达式匹配规则：

([\s\S]*)

同时，也可以用 “([\d\D]*)”、“([\w\W]*)” 来表示。

正则表达式可以让用户通过使用一系列的特殊字符构建匹配模式，然后把匹配模式与数据文件、程序输入以及WEB页面的表单输入等目标对象进行比较，根据比较对象中是否包含匹配模式，执行相应的程序。

举例来说，正则表达式的一个最为普遍的应用就是用于验证用户在线输入的邮件地址的格式是否正确。如果通过正则表达式验证用户邮件地址的格式正确，用户所填写的表单信息将会被正常处理；反之，如果用户输入的邮件地址与正则表达的模式不匹配，将会弹出提示信息，要求用户重新输入正确的邮件地址。由此可见正则表达式在WEB应用的逻辑判断中具有举足轻重的作用。

基本语法在对正则表达式的功能和作用有了初步的了解之后，我们就来具体看一下正则表达式的语法格式。正则表达式的形式一般如下：

/love/

其中位于“/”定界符之间的部分就是将要在目标对象中进行匹配的模式。用户只要把希望查找匹配对象的模式内容放入“/”定界符之间即可。为了能够使用户更加灵活的定制模式内容，正则表达式提供了专门的“元字符”。所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符，可以用来规定其前导字符（即位于元字符前面的字符）在目标对象中的出现模式。

较为常用的元字符包括： “+”， “*”，以及 “?”。其中，“+”元字符规定其前导字符必须在目标对象中连续出现一次或多次，“*”元字符规定其前导字符必须在目标对象中出现零次或连续多次，而“?”元字符规定其前导对象必须在目标对象中连续出现零次或一次。
下面，就让我们来看一下正则表达式元字符的具体应用。

/fo+/

因为上述正则表达式中包含“+”元字符，表示可以与目标对象中的 “fool”, “fo”, 或者 “football”等在字母f后面连续出现一个或多个字母o的字符串相匹配。

/eg*/

因为上述正则表达式中包含“*”元字符，表示可以与目标对象中的 “easy”, “ego”, 或者 “egg”等在字母e后面连续出现零个或多个字母g的字符串相匹配。

/Wil?/

因为上述正则表达式中包含“？”元字符，表示可以与目标对象中的 “Win”, 或者 “Wilson”,等在字母i后面连续出现零个或一个字母l的字符串相匹配。

除了元字符之外，用户还可以精确指定模式在匹配对象中出现的频率。例如，

/jim{2,6}/

上述正则表达式规定字符m可以在匹配对象中连续出现2-6次，因此，上述正则表达式可以同jimmy或jimmmmmy等字符串相匹配。
在对如何使用正则表达式有了初步了解之后，我们来看一下

其它几个重要的元字符的使用方式。
\s：用于匹配单个空格符，包括tab键和换行符；
\S：用于匹配除单个空格符之外的所有字符；
\d：用于匹配从0到9的数字；
\w：用于匹配字母，数字或下划线字符；
\W：用于匹配所有与\w不匹配的字符；
. ：用于匹配除换行符之外的所有字符。
（说明：我们可以把\s和\S以及\w和\W看作互为逆运算）

下面，我们就通过实例看一下如何在正则表达式中使用上述元字符。
/\s+/ 　　上述正则表达式可以用于匹配目标对象中的一个或多个空格字符。
/\d000/ 　　如果我们手中有一份复杂的财务报表，那么我们可以通过上述正则表达式轻而易举的查找到所有总额达千元的款项。
除了我们以上所介绍的元字符之外，正则表达式中还具有另外一种较为独特的专用字符，即定位符。定位符用于规定匹配模式在目标对象中的出现位置。

较为常用的定位符包括： “^”, “$”, “\b” 以及 “\B”。

其中，“^”定位符规定匹配模式必须出现在目标字符串的开头，“$”定位符规定匹配模式必须出现在目标对象的结尾，\b定位符规定匹配模式必须出现在目标字符串的开头或结尾的两个边界之一，而“\B”定位符则规定匹配对象必须位于目标字符串的开头和结尾两个边界之内，即匹配对象既不能作为目标字符串的开头，也不能作为目标字符串的结尾。同样，我们也可以把“^”和“$”以及“\b”和“\B”看作是互为逆运算的两组定位符。举例来说：

/^hell/   　　因为上述正则表达式中包含“^”定位符，所以可以与目标对象中以   “hell”,   “hello”或   “hellhound”开头的字符串相匹配。
/ar$/   　　因为上述正则表达式中包含“$”定位符，所以可以与目标对象中以   “car”,   “bar”或   “ar”   结尾的字符串相匹配。
/\bbom/   　　因为上述正则表达式模式以“\b”定位符开头，所以可以与目标对象中以   “bomb”,   或   “bom”开头的字符串相匹配。
/man\b/   　　因为上述正则表达式模式以“\b”定位符结尾，所以可以与目标对象中以   “human”,   “woman”或   “man”结尾的字符串相匹配。

为了能够方便用户更加灵活的设定匹配模式，正则表达式允许使用者在匹配模式中指定某一个范围而不局限于具体的字符。

例如：

/[A-Z]/   　　上述正则表达式将会与从A到Z范围内任何一个大写字母相匹配。
/[a-z]/   　　上述正则表达式将会与从a到z范围内任何一个小写字母相匹配。
/[0-9]/   　　上述正则表达式将会与从0到9范围内任何一个数字相匹配。
/([a-z][A-Z][0-9])+/   　　上述正则表达式将会与任何由字母和数字组成的字符串，如   “aB0”   等相匹配。

这里需要提醒用户注意的一点就是可以在正则表达式中使用 “()” 把字符串组合在一起。“()”符号包含的内容必须同时出现在目标对象中。因此，上述正则表达式将无法与诸如 “abc”等的字符串匹配，因为“abc”中的最后一个字符为字母而非数字。

如果我们希望在正则表达式中实现类似编程逻辑中的“或”运算，在多个不同的模式中任选一个进行匹配的话，可以使用管道符 “|”。例如：

/to|too|2/ 　　上述正则表达式将会与目标对象中的 “to”, “too”, 或 “2” 相匹配。

正则表达式中还有一个较为常用的运算符，即否定符 “[^]”。与我们前文所介绍的定位符 “^” 不同，否定符 “[^]”规定目标对象中不能存在模式中所规定的字符串。例如：

/[^A-C]/ 　　上述字符串将会与目标对象中除A，B，和C之外的任何字符相匹配。一般来说，当“^”出现在 “[]”内时就被视做否定运算符；而当“^”位于“[]”之外，或没有“[]”时，则应当被视做定位符。　　最后，当用户需要在正则表达式的模式中加入元字符，并查找其匹配对象时，可以使用转义符“\”。例如：

/Th\*/ 　　上述正则表达式将会与目标对象中的“Th*”而非“The”等相匹配。使用实例　　在对正则表达式有了较为全面的了解之后，我们就来看一下如何在Perl，PHP，以及javascript中使用正则表达式。

通常，Perl中正则表达式的使用格式如下：

operator   /   regular-expression   /   string-to-replace   /   modifiers

运算符一项可以是m或s，分别代表匹配运算和替换运算。其中，正则表达式一项是将要进行匹配或替换操作的模式，可以由任意字符，元字符，或定位符等组成。替换字符串一项是使用s运算符时，对查找到的模式匹配对象进行替换的字符串。

最后的参数项用来控制不同的匹配或替换方式。例如：

s/geed/good/

将会在目标对象中查找第一个出现的geed字串，并将其替换为good。如果我们希望在目标对象的全局范围内执行多次查找— 替换操作的话，可以使用参数 “g”，即s/love/lust/g。

此外，如果我们不需要限制匹配的大小写形式的话，可以使用参数 “i ”。例如，m/JewEL/i 　　上述正则表达式将会与目标对象中的jewel，Jewel，或JEWE L相匹配。

在Perl中，使用专门的运算符“=~”指定正则表达式的匹配对象。例如：　　$flag =~ s/abc/ABC/上述正则表达式将会把变量$flag中的字串abc替换为ABC

Tags: 正则表达式

分类:技术文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 88

Notepad++正则替换日志

作者:admin 日期:2019-10-11

第一步：

\n([^,])*,

替换为

\r\n

第二步：

,([^\r])*\r\n?

替换为

\r\n

Tags: 正则表达式

分类:技术文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 454

Php正则替换函数ereg_replace()和eregi_replace()的区别

作者:admin 日期:2012-11-23

php中eregi_replace()和ereg_replace()函数的功能一致，只是前者忽略大小写。

代码示例：

PHP代码

<?php
$lines = file('source.php'); //将文件读入数组中
for($i=0; $i<count($lines); $i++)
{
//将行末以“\”或“#”开头的注释去掉
$lines[$i] = eregi_replace("(//|#).*$", "", $lines[$i]);
//将行末的空白消除
$lines[$i] = eregi_replace("[ nrtvf]*$", "rn", $lines[$i]);
}
//整理后输出到页面
echo htmlspecialchars(join("",$lines));
?>

Tags: php 正则表达式

分类:技术文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2549

Php正则提取手机号码

作者:admin 日期:2012-10-31

该日志是私密日志，只有博主或发布者可以查看！

分类:技术文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 1737

utf8中文正则匹配问题

作者:admin 日期:2012-10-20

PHP代码

if(!preg_match("/^[\x{4e00}-\x{9fa5}A-Za-z0-9]+$/u",$word)){
echo '不是中文！';
}

Tags: php 正则表达式

分类:技术文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2165

Dreamweaver正则替换代码

作者:admin 日期:2012-08-16

这段代码我主要用来批量替换网页里面无用的备注标记，非常方便！

Tags: dreamweaver 正则表达式

分类:技术文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2094

Asp正则表达式提取字符

作者:admin 日期:2012-07-18

正则表达式--验证手机号码:13[0-9]{9}

实现手机号前带86或是+86的情况:^((\+86)|(86))?(13)\d{9}$
电话号码与手机号码同时验证:(^(\d{3,4}-)?\d{7,8})$|(13[0-9]{9})
提取信息中的网络链接:(h|H)(r|R)(e|E)(f|F) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)?
提取信息中的邮件地址:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
提取信息中的图片链接:(s|S)(r|R)(c|C) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)?
提取信息中的IP地址:(\d+)\.(\d+)\.(\d+)\.(\d+)
提取信息中的中国手机号码:(86)*0*13\d{9}
提取信息中的中国固定电话号码:($\d{3,4}$|\d{3,4}-|\s)?\d{8}
提取信息中的中国电话号码（包括移动和固定电话）:($\d{3,4}$|\d{3,4}-|\s)?\d{7,14}
提取信息中的中国邮政编码:[1-9]{1}(\d+){5}
提取信息中的中国身份证号码:\d{18}|\d{15}
提取信息中的整数：\d+
提取信息中的浮点数（即小数）：(-?\d*)\.?\d+
提取信息中的任何数字：(-?\d*)(\.\d+)?
提取信息中的中文字符串：[\u4e00-\u9fa5]*

ASP/Visual Basic代码

Function RegExpTest(patrn, strng)
Dim regEx, Match, Matches ' 建立变量。
Set regEx = New RegExp ' 建立正则表达式。
regEx.Pattern = patrn ' 设置模式。
regEx.IgnoreCase = True ' 设置是否区分字符大小写。
regEx.Global = True ' 设置全局可用性。
Set Matches = regEx.Execute(strng) ' 执行搜索。
For Each Match in Matches ' 遍历匹配集合。
RetStr = RetStr & "Match found at position "
RetStr = RetStr & Match.FirstIndex & ". Match Value is '"
RetStr = RetStr & Match.Value & "'." & vbCRLF
Next
RegExpTest = RetStr
End Function
RegExpTest("is.", "IS1 is2 IS3 is4")

Tags: asp 正则表达式

分类:技术文章 | 固定链接 | 评论: 0 | 引用: 0 | 查看次数: 2178

ASP中用正则表达式替换字符找字符

作者:admin 日期:2012-07-18

正则表达式应用非常广泛，特别是在文本处理方面，可以把符合条件的字符替换成别的字符，也可以从文本中找出所有符合条件的字符。

最基本的中英文搜索分词，即把用户输入的搜索关键字分割成中文词和英文词，比如用户输入了：NOKIA诺基亚5700，分割后就是3个词NOKIA、诺基亚、5700，这样更容易找到用户需要的信息。

ASP实现代码举例：

keyword=“NOKIA诺基亚5700” '要分割的关键字
partWord="" ’'保存分割出来的每个关键字
set regEx = new RegExp
regEx.Pattern= "[\w]+" '取出英文，并将全部匹配结果存到数组中去
regEx.IgnoreCase = True ‘忽略大小写
regEx.Global = True '全局匹配
Set Matches=regEx.Execute(keyword)
For Each Matche In Matches '所有匹配结果集
partWord=partWord&Matche&"|" '分词
next
set regEx=nothing
set regEx = new RegExp
regEx.Pattern= "[^\w ]+" '取非（英文＋空格），这里W后面有个空格
regEx.IgnoreCase = True
regEx.Global = True
Set Matches=regEx.Execute(keyword)
For Each Matche In Matches
partWord=partWord&Matche&"|"
next