Java 中运算符的 Unicode

2025年3月17日 | 阅读 3 分钟

二进制表示法是计算机使用的内部数据存储格式。0 和 1 联合用于存储字符。这个操作称为编码。由于它使得在不同类型的设备上更容易表达相同的信息,因此字符编码方案至关重要。

编码类别

下面列出了 Unicode 系统之前使用的各种编码风格。

例如,KOI-8 用于俄语,GB18030 和 BIG-5 用于中文,ASCII(美国信息交换标准代码)用于美国。ISO 8859-1 用于西欧语言。

Base64 用于文本到二进制的转换。

Java 使用 Unicode 系统,因为……

  • Unicode 系统之前的编码方法存在一些缺点。
  • 每种语言都有自己的一套字母,每个字母都有一个唯一的代码,因此不同语言中的不同字母具有不同的代码。

某些语言有多种字符集,用于表示每个字符的代码长度可能不同。例如,有些字符只需要一个字节进行编码,而有些字符可能需要两个或更多字节。

由于这些问题,Unicode 系统被开发出来,作为一种更有效的字符编码方法。

什么是 Unicode 系统?

Unicode 系统是一种全球字符编码方法,可以表示世界上大多数语言。

Unicode Consortium 创建了 Unicode 系统。

Unicode 字符由十六进制值表示。

存在多种 Unicode 转换格式

UTF-8:它代表 8 位(1 字节)的字符编码。

UTF-16:这是一种 16 位、两字节的字符编码。

UTF-32:这是一种 32 位(4 字节)的字符编码。

访问 Unicode 字符的格式以转义字符 "u" 开头,后跟四位十六进制值。

Unicode 字符的可能值范围从 u0000 到 uFFFF。

一些 Unicode 符号包括版权符号 (u00A9)、大写希腊字母 delta (u0394) 和双引号 (u0022)。

UnicodeExpl.java

输出

Unicodes for Operators in Java

上面代码中创建了一个 UnicodeDemo 类。使用 getBytes() 方法,将一个 Unicode 字符串 str1 首先转换为 UTF-8 格式。然后,字节数组再次转换为 Unicode 后,newstr 的值将被显示在终端上。

与 Unicode 相关的问题

Unicode 标准旨在表示 16 位字符编码。它的目的是能够使用基本的 char 数据类型表示人类已知的每个字符。然而,16 位编码只能表示 65,536 个字符,这不足以表示全球可用的所有字符。

因此,Unicode 字符集被扩展到 1,112,064 个字符。Java 使用一对 char 值来定义补充字符,这些字符的位数大于 16 位。

在本文中,我们介绍了基本的编码技术、Java Unicode 系统、该系统引起的问题,以及一个演示该系统使用的 Java 程序。