Java UTF

2024 年 9 月 10 日 | 阅读 3 分钟

在这篇关于 Java 编程语言的文章中,我们将详细解释“UTF”一词及其转换。我们将学习 Java 编程语言中 UTF 的不同形式、它们的用途以及在编码时的性质。

什么是 Unicode?

Unicode 是一种国际编码标准,可用于各种语言和脚本。在 Unicode 中,每个符号、字母或数字都被分配到一个特定的数字。这个数值可以在不同的平台之间应用,因此得名 Unicode。

UTF 是什么意思?

UTF 的意思是“Unicode Transformation Format”(Unicode 转换格式)。Unicode 转换格式是一种将字符编码为 Unicode 的结构。UTF 有多种版本,其中“UTF-8”版本最为突出。UTF-8 是一种可变长度编码器,在编码时使用 8 位代码单元。UTF-8 版本设计为向后兼容 ASCII 编码。在 Unicode 转换格式中,用于表示字符的块数从一个到四不等。使用的不同 UTF 编码包括:

  1. UTF-1: Unicode 转换格式中的第一个。它已不再是 Unicode 标准的一部分。
  2. UTF-7: 编码过程使用 7 位。它是主要用于邮件软件“电子邮件”的格式。
  3. UTF-8: 这是目前最常用的格式。UTF-8 使用 8 位进行可变宽度编码。
  4. UTF-16: 使用 16 位可变宽度编码格式。
  5. UTF-32: 使用 32 位进行编码,但宽度是固定的,即非可变宽度。
  6. UTF-EBCDIC: 此格式仅使用 8 位进行编码。它旨在与扩展二进​​制编码的十进制交换码 (EBCDIC) 兼容。

要在 Java 编程语言中将 Unicode 转换为 UTF-8,我们使用一个名为“getBytes()”的方法。getBytes() 方法会将字符串编码为字节序列,并返回一个字节数组作为输出。

getBytes() 方法声明

现在,让我们通过 Java 编程语言中的一个示例,以程序的形式查看上述声明的用法。

Java 中 Unicode 到 UTF-8 的转换程序

输出

The UTF-8 form for \u1111 is :
-31-124-111
 The UTF-8 form for \uFFFF is :
-17-65-65

在输出中,我们可以注意到 Unicode“1111”的 UTF-8 形式是“ -31-124-111”,而“FFFF”的 UTF-8 形式是“ -17-65-65”。因此,通过这种方式,Java 中使用 UTF 来转换任何给定的 Unicode。这种转换是通过“getBytes( )”方法完成的。

确切地说,为了将 Unicode 转换为 UTF-8 格式,我们使用了“getBytes ( " UTF-8 " )”方法。此方法将输入字符串转换为字节数组。字节数组生成 Unicode 的转换后的 UTF 格式,并使用增强的“for”循环打印出来。

结论

从文章中,我们可以得出结论,“UTF”是 Java 编程语言中用于将任何 Unicode 转换为编码格式的术语。我们了解到统一转换格式有不同的版本,并且它们正在不断更新。文章中显示的程序及其输出清楚地表明,不同的 Unicode 具有独特的编码 UTF。因此,这是关于统一转换格式 (UTF) 及其在 Java 编程语言中的实现的完整信息。