ECMAScript 2018(ES9)中的 Unicode 标准化 — Normalization

随着计算机在全球范围内的普及,Unicode 已成为处理文本的标准。但是,Unicode 中存在着多种写法,例如汉字“中”可以表示为 U+4E2D(CJK 统一汉字)或 U+9F8D(康熙字典中的一种写法)。这样会给字符串的比较、搜索、处理以及存储带来困难。因此,在 ECMAScript 2018(ES9)中引入了 Unicode 标准化(Normalization),以解决这些问题。

Unicode 标准化

Unicode 标准化的目的是将字符串的不同写法表示为同一标准形式,从而方便处理和存储。Unicode 标准提供了四种标准形式,也称为规范形式(Normalization Form):

  1. NFC(Normalization Form Canonical Composition):组合字符。

  2. NFD(Normalization Form Canonical Decomposition):分解字符。

  3. NFKC(Normalization Form Compatibility Composition):组合字符并使得字符在语义上等价,例如:“à” 和 “á” 可以在 NFC 中表示为 “á ”。

  4. NFKD(Normalization Form Compatibility Decomposition):分解字符并使得字符在语义上等价,例如:“à” 和 “á” 可以在 NFD 中表示为 “à”。

其中,NFC 和 NFD 叫做规范分解形式(Canonical Decomposition Form, CDF)和规范组合形式(Canonical Composition Form, CCF); NFKC 和 NFKD 叫做兼容分解形式(Compatibility Decomposition Form, CDF)和兼容组合形式(Compatibility Composition Form, CCF)。

字符串的标准化

字符串的标准化有两种方法:

String.prototype.normalize()

使用 String.prototype.normalize() 方法可以将字符串标准化为指定的形式。该方法接受一个标准形式的字符串参数,可选值为 "NFC""NFD""NFKC""NFKD",默认值为 "NFC"

示例代码:

--- ---- - --------------- -- ----
--- ---- - -----------------
---------------- --- ------ -- -----
---------------- --- ---------- -- ----

Intl.Collator()

使用 Intl.Collator() 方法,可以创建一个与特定语言环境及选项相对应的字符串比较对象。其中,numeric 参数用于指定是否支持数字排序,默认为 falsecaseFirst 参数用于指定是否区分大小写,默认为 "false",可以设置为 "upper""lower"localeMatcher 参数用于指定寻找语言环境的算法,有 "lookup""best fit" 两种模式,分别对应精确匹配和模糊匹配,默认为 "best fit"

示例代码:

--- --- - ----- ---- ---- --------- ---- ---- --------- ----------
--------------------------------------------------- -- ----- ---- ---- ------- ------- ------- ---- ----
---------------------------------------- - ------------ ------ ------------- -- ----- ------- ------- ---- ---- ------- ---- ----

优化性能

字符串的标准化会增加代码的执行时间,因此需要避免过度使用。对于只需要在本地或者当前字符编码中进行处理的字符,不需要进行标准化,例如在该字符编码中没有多种写法的英文字母或阿拉伯数字。

总结

Unicode 标准化在字符串处理中具有重要的作用,可以解决不同字符写法的比较、搜索、处理以及存储的问题,但是在使用时需要注意性能问题。使用 String.prototype.normalize() 方法和 Intl.Collator() 方法可以将字符串标准化为指定的形式,以及创建一个与特定语言环境及选项相对应的字符串比较对象,以便进行不同形式的字符串比较。

来源:JavaScript中文网 ,转载请联系管理员! 本文地址:https://www.javascriptcn.com/post/65a114eeadd4f0e0ff939533


猜你喜欢

  • Node.js 开发者的 Sass 入门指南

    Sass 是一种 CSS 预处理器,它为开发者提供了一种更简洁、更灵活的方式来编写 CSS。在这篇文章中,我们将探讨 Sass 的基础知识,以及如何在 Node.js 中使用 Sass。

    9 个月前
  • Serverless 架构中使用 API Gateway 的常见错误及解决方案

    前言 在使用 Serverless 架构中的 API Gateway 时,我们可能会遇到各种各样的错误。这些错误可能会导致我们的应用程序无法正常运行,给开发和运维带来不必要的麻烦。

    9 个月前
  • Express.js 请求参数解析与校验

    前言 在使用 Express.js 进行开发时,我们难免要处理请求参数的问题。如何解析参数,如何校验参数的正确性,这些都是前端工程师需要掌握的技能。本文将会详细介绍 Express.js 的参数解析与...

    9 个月前
  • 如何使用 Custom Elements 和 WebSocket 实现实时数据更新?

    在现代的 web 应用程序中,实时数据更新是必不可少的。WebSockets 是一种可以建立实时连接的技术,而 Custom Elements 则为创建可复用的自定义标签提供了一种简单的方法。

    9 个月前
  • 使用 RxJS 实现实时数据的双向绑定和服务器推送

    在前端开发中,实时数据的双向绑定和服务器推送是非常常见的需求。传统的做法通常是利用轮询或者长轮询,但这种方式存在明显的不足,比如浪费带宽和延迟高等问题。而 RxJS 这个流式编程库可以提供一种新的解决...

    9 个月前
  • GraphQL API 调试入门:解决 JSON 错误的问题

    什么是 GraphQL API? GraphQL 是一种用于构建 API 的查询语言,提供了一种更加有效率、强大和灵活的方式来获取和操作持久化数据。GraphQL API 可以让前端开发者更直接地和服...

    9 个月前
  • React 单元测试利器 Enzyme 入门指南

    作为前端开发人员,单元测试是我们日常开发不可或缺的一部分。而针对 React 的单元测试,我们有一个非常强大的利器——Enzyme。Enzyme 是 AirBnb 开发的一个 React 测试工具,可...

    9 个月前
  • Jest 测试时如何 mock 掉 React 组件的生命周期?

    随着前端技术的发展,越来越多的新技术被采用到我们的工作中。在开发过程中,我们经常需要使用到测试工具来确保代码质量,而测试时mock掉React组件生命周期函数是一个非常实用的技巧。

    9 个月前
  • 如何在 Deno 中使用 JWT 进行用户认证和权限控制?

    在 Web 应用开发过程中,用户认证和权限控制是非常重要的功能,通常我们使用 JWT(JSON Web Token)来实现这些功能。那么,如何在 Deno 中使用 JWT 进行用户认证和权限控制呢?接...

    9 个月前
  • 在使用 CSS Reset 时注意列表样式的影响

    在使用 CSS Reset 时注意列表样式的影响 在 web 前端开发中,CSS Reset 是重要的一环。通常情况下,我们会使用 CSS Reset 来清除浏览器的默认样式,以确保我们的网页在不同浏...

    9 个月前
  • 如何解决在 Vue 中使用 TypeScript 时出现的错误提示?

    在前端开发中,Vue.js 和 TypeScript 越来越受到开发者的青睐。Vue.js 是一个简单、快速、灵活且可扩展的 JavaScript 框架,而 TypeScript 则是一种强类型、面向...

    9 个月前
  • 如何使用 ES8 的 Trailing commas 解决 JavaScript 数组和对象的语法错误

    前言 在 JavaScript 中,数组和对象是两种常用的数据类型。它们支持存储和操作一组数据。但是,在操作过程中可能会犯一些语法错误,例如最后一个元素后面多一个逗号。

    9 个月前
  • 如何在 Vue.js 项目中有效利用虚拟 DOM 技术

    在 Vue.js 中,虚拟 DOM 是其最为核心的技术之一,它的作用是将数据和视图进行分离,通过对数据的操作来实现页面的渲染更新。本文将为大家介绍在 Vue.js 项目中如何有效利用虚拟 DOM 技术...

    9 个月前
  • Angular HttpClient 拦截器使用详解

    Angular 的 HttpClient 是一个非常强大的 HTTP 客户端,能够提供丰富的 HTTP 请求和响应的处理能力。在实际应用中,我们通常需要对 HTTP 请求进行一些共同的处理,比如添加请...

    9 个月前
  • Next.js 的外链引入样式问题及解决方法

    Next.js 的外链引入样式问题及解决方法 前言 Next.js 是一个非常流行的 React 框架,它通过其强大的路由功能、静态生成和服务端渲染等特性,可以帮助我们构建出高效、灵活的应用。

    9 个月前
  • PhantomJS、Karma、ESLint、babel-plugin-istanbul 代码覆盖率问题

    PhantomJS、Karma、ESLint、babel-plugin-istanbul 代码覆盖率问题 在前端开发中,代码覆盖率是一种重要指标。它表示测试中代码被执行到的比例,能够帮助我们判断测试用...

    9 个月前
  • 如何在 Mocha 测试框架中使用 Sinon 进行 Stub 测试

    如何在 Mocha 测试框架中使用 Sinon 进行 Stub 测试 在前端开发中,测试是一个不可避免的过程。Mocha 是一个流行的 JavaScript 测试框架,而 Sinon 是一个独立于任何...

    9 个月前
  • 在 Web Components 中如何使用 Web Worker 来提高性能

    Web Components 是一项新兴的前端技术,通过封装 HTML、CSS 和 JavaScript,可以创建可复用的自定义组件,从而提高开发效率和代码可维护性。

    9 个月前
  • 解决 Redux 报错 TypeError: Cannot read property 'connect' of undefined

    当使用 react-redux 库的 connect 函数连接 redux 状态管理器时,有时会遇到报错 TypeError: Cannot read property 'connect' of un...

    9 个月前
  • Sequelize 中如何实现模型实例的更新和保存

    Sequelize 是一个基于 Node.js 的 ORM 框架,用于与各种 SQL 数据库进行交互。在使用 Sequelize 操作数据库时,我们经常需要更新和保存模型实例,因为这可以让我们持久化我...

    9 个月前

相关推荐

    暂无文章