大佬们才玩的正则表达式,看完你也会
- 作者: 期望带来失望
- 来源: 51数据库
- 2021-07-01
大佬们才玩的正则表达式
目录
- 大佬们才玩的正则表达式
- 什么是正则表达式
- 元字符
- 字符转义
- 集合
- 分组
- 后向引用
- 零度断言
- 贪婪与懒惰
- 贪婪的重复
- 懒惰的重复
- 常见的正则表达式
什么是正则表达式
简单来说,正则表达式就是用一些特定的符号来代替字符串
元字符
| 代码 | 说明 |
|---|---|
| . | 匹配除\n以外的任意字符 |
| \w | 匹配数字或字母或 _ |
| \W | 匹配非数字或字母或 _ |
| \s | 匹配任意的空白符(空格,换行,字表符) |
| \S | 匹配非空白符 |
| \d | 匹配所有数字 |
| \D | 匹配非数字 |
| \b | 匹配单词的开始或结束(边界) |
| \B | 匹配非单词边界 |
| ^ | 匹配字符串的开始 |
| $ | 匹配字符串的结束 |
字符转义
| 代码 | 说明 |
|---|---|
| \f | 匹配一个换页符 |
| \n | 匹配一个换行符 |
| \r | 匹配一个回车符 |
| \t | 匹配一个水平制表符 |
| \v | 匹配一个垂直制表符 |
| * | 匹配* |
| . | 匹配. |
| \ | 匹配\ |
集合
| 代码 | 说明 |
|---|---|
| x | y | 匹配x或y |
| [xyz] | 字符集合。匹配所包含的任意一个字符。例如’[abc]’ 可以匹配 “plain” 中的 ‘a’。 |
| [^xyz] | 负值字符集合。匹配未包含的任意字符。例如’[^abc]’ 可以匹配 “plain” 中的’p’、‘l’、‘i’、‘n’。 |
| [a-z] | 字符范围。匹配指定范围内的任意字符 |
| [^a-z] | 负值字符范围。匹配任何不在指定范围内的任意字符。 |
回到顶部 目录
分组
| 分类 | 代码 | 说明 |
|---|---|---|
| 捕获 | (exp) | 匹配exp,并捕获文本到自动命名的组里面 |
| (?<name>exp) | 匹配exp,并捕获文本到名称为name的组里 | |
| (?:exp) | 匹配exp,不捕获匹配的文本,也不给此分组分配编号 | |
| 零度断言 | (?=exp) | 匹配exp前面的位置 |
| (?<=exp) | 匹配exp后面的位置 | |
| (?!exp) | 匹配后面跟着不是exp的位置 | |
| (?<!exp) | 匹配强面不是exp的位置 | |
| 注释 | (?#comment) | 这种类型的分组不对正则表达式的处理产生任何影响,只是提供注释让人阅读 |
每使用一对()小括号,就是分了一个小组,并且每个小组都有一个编号
系统自动分配编号的原则是:
- 从左到右分配编号,第一个组是1,第二个是2,以此类推(正则表达式整体是一个组,编号为0)
- 实现上会从右到左查询两次,第一次给未命名的组分配组号,第二次给已命名的组分配组号
- 可以使用(?:xxx)的语法来让一个组不参与自动分配组号
后向引用
后向引用是指通过反斜杠\加上 数字(编号)的方式来重复使用某一组的正则表达式
例如:(\d+)\s{1}\1这个式子中可看出\d+是第1组,编号就是1,后面的\1就是引用了前面这一组的内容,相当于 (\d+)\s{1}(\d+)
零度断言
匹配宽度为0,在匹配元素的位置设置断点
比如一个字符串ddexpaa
dd(?=exp):匹配exp前面的dd
(?=exp)aa:匹配exp后面的aa
贪婪与懒惰
比如一个字符串aabab
贪婪的正则匹配:a.*b ==> 匹配到aabab一个结果
懒惰的正则匹配:a.*?b ==> 匹配到aab和ab两个结果
贪婪的重复
| 代码 | 说明 |
|---|---|
| * | 重复0次或者无数次 |
| + | 重复1次或者无数次 |
| ? | 重复0次或者1次 |
| {n} | 重复n次 |
| {n,} | 重复n次或者重复n次以上 |
| {n, m} | 重复n到m次 |
懒惰的重复
| 代码 | 说明 |
|---|---|
| *? | 重复任意次,但尽可能少重复 |
| +? | 重复1次或者更多次,但尽可能少重复 |
| ?? | 重复0次或者1次,但尽可能少重复 |
| {n,m}? | 重复n到m次,但尽可能少重复 |
| {n,}? | 重复n次以上,但尽可能少重复 |
回到顶部 目录
常见的正则表达式
- 手机号码:
/^1[3456789][0-9]{9}$/ - 座机:
/^(0\d{2,3}-\d{7,8})(-\d{1,4})?$/ - 身份证:
/(^\d{15}$)|(^\d{18}$)|(^\d{17}(\d|X|x)$)/ - 长度在6-18之间的,只能包括字母、数字和下划线:
/^[a-zA-Z]\w{5,17}$/ - 邮政编码:
/[1-9]\d{5}(?!\d)/ - QQ号:
/^[1-9][0-9]{4,9}$/ - 邮箱:
/^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$/ - 金额(小数两位):
/^\d*(?:\.\d{0,2})?$/ - 网址:
/(http|ftp|https)://[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])?/ - IP:
/((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))/ - 日期时间:
/^(\d{4})\-(\d{2})\-(\d{2}) (\d{2})(?:\:\d{2}|:(\d{2}):(\d{2}))$/.test(str) || /^(\d{4})\-(\d{2})\-(\d{2})$/ - 数字:
/^[0-9]$/ 或者 /^\d$/ - 英文:
/^[a-zA-Z]+$/ - 中文:
/^[\一-\龥]+$/ - 小写:
/^[a-z]+$/ - 大写:
/^[A-Z]+$/ - HTML标记:
/<("[^"]*"|'[^']*'|[^'">])*>/
回到顶部 目录
推荐阅读
