正则表达式在前端开发中是一个非常重要的工具,可以用来进行字符串匹配、替换和验证等操作。在 ES9 中,正则表达式字面量得到了一些增强,特别是在 Unicode 支持方面,让我们更加方便地处理非 ASCII 字符串。
1. Unicode 属性转义
在 ES9 中,我们可以使用 Unicode 属性转义来匹配 Unicode 字符的属性。Unicode 属性指的是字符的一些特殊属性,比如它是不是数字、字母、空格、标点符号等等。下面是一些常用的 Unicode 属性转义:
\p{Letter}
:匹配任何字母字符\p{Number}
:匹配任何数字字符\p{Punctuation}
:匹配任何标点符号字符\p{Symbol}
:匹配任何数学符号、货币符号、箭头等字符\p{Separator}
:匹配任何空格字符、分隔符等字符\p{Other}
:匹配任何其他字符(除了上面列出的几种)
比如,我们可以使用 \p{Letter}
来匹配任何字母字符:
const str = 'Hello, 世界!'; const regex = /\p{Letter}+/gu; const matches = str.match(regex); console.log(matches); // ['Hello', '世界']
2. Unicode 属性取反
除了匹配某个 Unicode 属性,我们还可以使用 Unicode 属性的取反形式,来匹配除了某个属性之外的字符。取反形式是在属性名前加上大写的 \P
,比如 \P{Letter}
表示匹配任何非字母字符。
比如,我们可以使用 \P{Number}
来匹配除了数字之外的任何字符:
const str = 'Hello, 世界!'; const regex = /\P{Number}+/gu; const matches = str.match(regex); console.log(matches); // ['Hello, 世界!']
3. Unicode 块
除了使用 Unicode 属性来匹配字符,我们还可以使用 Unicode 块来匹配某些范围内的字符。Unicode 块是指一组 Unicode 字符,它们在 Unicode 编码表中是连续的一段。比如,CJK Unified Ideographs
块包含了中日韩等语言中使用的汉字。
在 ES9 中,我们可以使用 \p{Block}
来匹配某个 Unicode 块。下面是一些常用的 Unicode 块:
\p{ASCII}
:匹配 ASCII 字符\p{Latin}
:匹配拉丁字符\p{Greek}
:匹配希腊字符\p{Cyrillic}
:匹配西里尔字符\p{Hebrew}
:匹配希伯来字符\p{Arabic}
:匹配阿拉伯字符\p{Devanagari}
:匹配天城文字符(印度语等)\p{CJK_Unified_Ideographs}
:匹配中日韩统一表意文字(汉字)\p{Hangul_Syllables}
:匹配韩文音节
比如,我们可以使用 \p{CJK_Unified_Ideographs}
来匹配中日韩汉字:
const str = 'Hello, 世界!'; const regex = /\p{CJK_Unified_Ideographs}+/gu; const matches = str.match(regex); console.log(matches); // ['世界']
4. 示例代码
下面是一些使用 Unicode 属性和块的示例代码:

5. 总结
ES9 中增强了正则表达式字面量的 Unicode 支持,让我们可以更加方便地处理非 ASCII 字符串。通过使用 Unicode 属性和块,我们可以更加灵活地匹配和处理各种字符。在实际开发中,我们可以结合实际需求,灵活运用这些新特性,提高开发效率和代码质量。
来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/66372d4ad3423812e45550b3