从 ES9 的正则表达式命名组入手，理解其底层工作原理-JavaScript中文网-JavaScript教程资源分享门户

背景

正则表达式是前端开发中常用的工具之一，它可以用来匹配、查找、替换字符串中的内容。在 ES9 中，正则表达式命名组（Named Capturing Groups）被引入了，这个新特性让我们可以给一个匹配模式的一部分起一个名字，从而在后续的匹配中可以通过这个名字来引用它。这个特性的引入大大提高了正则表达式的可读性和可维护性。

ES9 的正则表达式命名组

在 ES9 中，我们可以用 (?<name>pattern) 的语法来定义一个命名组，其中 name 是组的名称，pattern 是组的模式。例如：

const regex = /(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})/;
const match = regex.exec('2022-11-15');
console.log(match.groups.year, match.groups.month, match.groups.day);

在这个例子中，我们定义了一个匹配日期格式的正则表达式，其中包含了三个命名组 year、month 和 day。当这个表达式和 ‘2022-11-15’ 进行匹配时，可以通过 match.groups 对象来获取匹配结果中每个命名组的值。

编译正则表达式

正则表达式的匹配过程可以分为两个阶段：编译和执行。在编译阶段，正则表达式会被编译成一个状态机，这个状态机可以处理一个字符序列并决定是否匹配成功。在执行阶段，状态机会被用来处理输入字符串，执行匹配操作。

编译一个正则表达式是一个复杂的过程，它会涉及到很多底层的实现细节。在 ES9 中，我们可以通过 ?<name> 的语法来定义命名组，这个语法实际上是一个语法糖，最终会被转换成状态机的一部分。

正常的分组使用 (pattern) 的语法，它会把一个子表达式和一个命名组捆绑在一起，生成一个组对象。比如，

/(\d{4})-(\d{2})-(\d{2})/.exec('2022-11-15');

在编译时，会生成一个状态机，这个状态机的状态对应着各自的分组。而在执行匹配时，每一个成功匹配的分组都会被封装到一个匹配结果对象中，这个匹配结果对象可以通过执行结果的 groups 属性访问。

命名组仅仅是给原本的分组重新增加了一个名称。在编译时，命名组会被转换成一个拥有属性 name 值的分组对象。这个分组对象会在执行匹配时，被封装到匹配结果对象中作为一个属性，这个属性的名称就是命名组的名称。

/(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})/.exec('2022-11-15');

在编译时，这个表达式会被转换成一个状态机，并生成三个分组对象，这三个对象分别包含了 year、month 和 day 三个属性。而在执行匹配时，这三个分组对象会被封装到匹配结果对象中，这个匹配结果对象可以通过执行结果的 groups 属性访问。

示例代码

const regex = /(?<year>\d{4})-(?<month>\d{2})-(?<day>\d{2})/;
const match = regex.exec('2022-11-15');
console.log(match.groups.year, match.groups.month, match.groups.day);

指导意义

正则表达式命名组是一个非常有用的特性，在实际应用中可以提高代码的可维护性和可读性。例如，在处理一些复杂的文本数据时，命名组可以将一些具有特定含义的文本片段进行分类并进行后续的处理。

在使用命名组时，我们需要注意一些细节。首先，命名组必须唯一。在同一正则表达式中不允许使用相同的命名组。其次，分组编号也需要注意。命名组在分组中的编号是从左到右依次累加的，例如第一组就是 1，第二组就是 2，以此类推。如果一个正则表达式中包含了命名组和普通分组，那么命名组的编号会紧跟在普通分组的编号后面。

最后，正则表达式是一门非常复杂的技术，我们需要花费大量的时间去学习和理解它的工作原理。ES9 的命名组只是正则表达式中的一个小特性，我们需要深入学习和掌握正则表达式的其他方面，才能真正用好这个工具，提升我们的开发效率和技术水平。

来源：JavaScript中文网，转载请注明来源 https://www.javascriptcn.com/post/67bf0e420c976d473a375d0d

从 ES9 的正则表达式命名组入手，理解其底层工作原理

背景

ES9 的正则表达式命名组

编译正则表达式

示例代码

指导意义

纠错反馈

程序员教程

程序员面试题库