Python 正则表达式中的 groups() 方法是什么？

2025年1月5日 | 阅读 4 分钟

引言

正则表达式，通常称为 regex 或 regexp，是一系列定义搜索模式的字符。它们用于字符串匹配和操作，提供了一种强大而灵活的方式来根据模式搜索、匹配和编辑文本。正则表达式广泛用于各种编程语言，包括 Python、Perl、JavaScript 等。

历史

正则表达式的概念起源于形式语言理论，由数学家 Stephen Cole Kleene 在 20 世纪 50 年代提出。他引入了正则集和正则表达式的概念来描述某些类型形式语言。随着时间的推移，这些概念在计算机科学中被采纳和扩展，特别是在文本处理和模式匹配方面。

基本概念

正则表达式是通过字面字符和称为元字符的特殊字符的组合构建的。让我们分解一下正则表达式的一些基本组成部分：

字面字符：这些是正则表达式中最简单的元素。例如，正则表达式 cat 精确匹配字符串 "cat"。

元字符：这些是具有特定含义的特殊字符，用于定义模式。一些常见的元字符包括：

.: 匹配除换行符外的任何单个字符。
^: 匹配字符串的开头。
$: 匹配字符串的结尾。
*: 匹配前一个元素的零次或多次出现。
+: 匹配前一个元素的至少一次出现。
?: 匹配前一个元素的零次或一次出现。
[]: 定义字符集，匹配方括号内的任何单个字符。
|: 充当 OR 运算符，匹配 | 前面或后面的模式。
(): 对模式进行分组并捕获匹配的子模式。

转义元字符：要将元字符用作字面字符，需要使用反斜杠 (\) 进行转义。例如，要匹配句点 (.)，请在正则表达式中使用 \.。

高级正则表达式模式

前瞻和后顾

前瞻和后顾是零宽度断言，允许您仅在某个模式后面或前面有另一个模式时才匹配该模式。这些对于更复杂的匹配条件很有用。

1. 前瞻 ((?=...))：断言该位置后面是指定的模式。

import re

pattern = r'\w+(?=\s)'
text = 'This is a test.'

matches = re.findall(pattern, text)
print("Matches with Lookahead:", matches)

输出

Matches with Lookahead: ['This', 'is', 'a']

2. 否定前瞻 ((?!...))：断言该位置后面不是指定的模式。

import re

pattern = r'\w+(?!\s)'
text = 'This is a test.'

matches = re.findall(pattern, text)
print("Matches with Negative Lookahead:", matches)

输出

Matches with Negative Lookahead: ['test']

3. 后顾 ((?<=...))：断言该位置前面是指定的模式。

import re
pattern = r'(?<=\s)\w+'
text = 'This is a test.'

matches = re.findall(pattern, text)
print("Matches with Lookbehind:", matches)

输出

Matches with Lookbehind: ['is', 'a', 'test']

4. 否定后顾 ((?<!...))：断言该位置前面不是指定的模式。

import re
pattern = r'(?<!\s)\w+'
text = 'This is a test.'

matches = re.findall(pattern, text)
print("Matches with Negative Lookbehind:", matches)

输出

Matches with Negative Lookbehind: ['This']

非捕获组

当您想对模式的一部分进行分组而不捕获匹配供以后使用时，可以使用非捕获组。它们使用 (?:...) 定义。

import re
pattern = r'(?:\d{2})-(\d{2})-(\d{4})'
text = 'Date: 05-12-2023'

match = re.search(pattern, text)
if match:
    print("All Groups:", match.groups())

输出

All Groups: ('12', '2023')

在此示例中，(?:\d{2}) 是一个非捕获组，因此只捕获了日和年。

正则表达式性能

当处理大型数据集或复杂模式时，性能可能会成为问题。以下是一些优化正则表达式的技巧：

预编译正则表达式：如果您需要多次使用正则表达式，请使用 re.compile() 预编译正则表达式。这可以避免重复编译模式。

import re
pattern = re.compile(r'(\d{2})/(\d{2})/(\d{4})')
text = 'Dates: 05/12/2023, 06/12/2023, 07/12/2023.'
matches = pattern.findall(text)
print("Matches:", matches)

输出

Matches: [('05', '12', '2023'), ('06', '12', '2023'), ('07', '12', '2023')]

为模式使用原始字符串：原始字符串 (r'...') 可以防止反斜杠在 Python 字符串中被解释为转义字符，使您的正则表达式更易读并减少错误。
避免回溯：设计您的模式以最大限度地减少回溯。过度的回溯会显著减慢模式匹配速度，尤其是对于具有许多替代项的复杂模式。
使用特定模式：在您的模式中尽可能具体，以减少搜索空间。避免匹配超过必需内容的过于通用的模式。

数据提取

正则表达式可用于从文本数据中提取特定信息，例如电子邮件地址、电话号码和日期。

import re
text = 'Contact us at support@example.com or sales@shop.com for more information.'
# Pattern for matching email addresses
email_pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
# Extract all email addresses
email_matches = re.findall(email_pattern, text)
print("Email Addresses:", email_matches)

输出

Email Addresses: ['support@example.com', 'sales@shop.com']

结论

Python re 模块中的 groups() 方法是处理正则表达式的通用工具。它允许您捕获和操作匹配的特定部分，从而实现更复杂和强大的文本处理功能。通过了解如何定义和使用组，您可以利用正则表达式的全部潜力来处理各种应用程序，从简单的文本提取到数据处理和 NLP 中的复杂模式匹配。

下一个主题将科学计数法显示为 Python 浮点数

Python 正则表达式中的 groups() 方法是什么？

引言

历史

基本概念

高级正则表达式模式

非捕获组

正则表达式性能

数据提取

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

其他

Python 正则表达式中的 groups() 方法是什么？

引言

历史

基本概念

高级正则表达式模式

非捕获组

正则表达式性能

数据提取

结论

相关帖子

Python随机森林算法

如何在Pandas中计算加权平均值

Python中的numpy.argmin()

如何在Python中查找两个文件的差异

Python中的append()和extend()

Python中打印图案

使用Python在计算机视觉中为图像添加水印

如何退出Python程序

在Python中获取列表的唯一值

Python的Google API客户端

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器