在前端开发中,经常会涉及到文本处理和字符编码的问题。JavaScript作为一种强大的脚本语言,在处理文本字符串时也有其自身的特点和方法。本文将详细介绍JavaScript中的文字编码相关知识,包括Unicode字符集、UTF-8编码方式、String对象的相关方法等。
Unicode字符集
Unicode是一种字符集,它定义了每个字符对应的唯一编号。Unicode字符集包含了世界上所有的字符,包括各种语言的字母、符号、标点符号以及其他文字。Unicode所定义的编号称为“码点”,通常用十六进制表示。
JavaScript中使用的字符都是基于Unicode字符集的。JavaScript采用的是UTF-16编码方式,即每个字符占用16位(2个字节)的存储空间。
在JavaScript中,可以通过转义序列来表示Unicode字符。例如,"\u0041"表示字符“A”,"\u20AC"表示欧元符号“€”。
console.log("\u0041"); // "A" console.log("\u20AC"); // "€"
UTF-8编码方式
UTF-8是一种变长的编码方式,它可以根据不同的字符使用不同长度的字节序列进行编码。UTF-8使用的码点范围与Unicode相同,但具体使用方式略有不同。
在UTF-8中,一个字符可能会被编码为1个、2个、3个或4个字节。其中,ASCII字符(码点范围为0x00~0x7F)只需要使用1个字节进行编码。其他字符则需要使用多个字节。
JavaScript中的字符串默认采用UTF-16编码方式,但可以通过一些方法实现UTF-8编码和解码。
UTF-8编码函数示例

UTF-8解码函数示例
