程序将 ASCII 转换为 Unicode（C++）

2025年1月12日 | 阅读 6 分钟

在编程中，两种常用的字符编码系统是ASCII和Unicode。Unicode 可以表示超过 100,000 个字符，使用从 0 到0x10FFFF的代码点，而 ASCII 只能用 7 位表示 128 个字符。在 C++ 中处理或显示不在 ASCII 范围内的字符时，将 ASCII 字符代码转换为相应的 Unicode 代码点有时很有帮助。本文将介绍一个基本的 C++ 程序，该程序将用户输入的 ASCII 代码转换为合适的 Unicode 字符。我们将直接将 ASCII 值映射到 Unicode 代码点，这对于 0-127 的标准 ASCII 范围是有效的。完整的代码示例展示了如何用几行 C++ 实现此转换，为应用程序中更强大的 Unicode 处理提供基础。

什么是 ASCII 码？

名为ASCII (American system Code for Information Interchange，美国信息交换标准代码)的字符编码系统使用七位来编码 128 个字符。它在1960 年代创建时基于英语字母。

ASCII 中的字符集编码

英语中的大写和小写字母 (A-Z, a-z)。
数字 0 到 9。
标点符号。
控制字符：换行符、回车符等。
特殊符号，例如 !"#$%&'()*+,-./:;<=>?@[]^_}{|}~。

从 0000000 到 1111111 的二进制数，可以方便地表示为 0 到 127 之间的十进制值，对应于每个字符。例如：

二进制 0100001，或十进制 65，对应于'A'，
而二进制 01000010，或十进制 66，对应于 'B'。

前 32 个 ASCII 码 (十进制 0-31) 保留给不可打印的控制字符，如空字符、制表符、换行符、回车符等。码位 32-126 表示可打印字符，如字母、数字和标点符号。码位 127 保留给删除字符。

ASCII 标准每个字符只使用7 位，但大多数现代系统使用 8 位并将最高位设置为 0。这使得 ASCII 可以在 8 位环境中与其他编码一起使用。

什么是 Unicode？

Unicode 是一项在大多数书写系统中通用的计算行业标准，可确保一致的编码、表示、处理和文本处理。无论平台如何，Unicode 为每个字符分配一个唯一的数字、应用程序或语言。

关于 Unicode 的几点说明

Unicode 使文本处理、存储和传输独立于语言和平台。
Unicode 标准可以编码超过 100 万个字符。它包含世界上所有主要语言的字符。
Unicode 使用 21 位的编码空间来定义 1,112,064 个代码点。每个代码点代表一个唯一的字符。
21 位空间被划分为 17 个平面，每个平面有 65,536 (= 2^16) 个代码点。第一个平面 (0000 - F) 称为基本多语言平面 (BMP)，包含几乎所有现代语言的字符。
Unicode 拥有双向文本、字形、排序和渲染标准，以促进国际化。
Unicode 联盟是一个非营利组织，负责维护 Unicode 标准。各大公司和组织都参与 Unicode 标准的制定。
Unicode 与设备和平台无关。Unicode 代码点表示的字符将在不同设备上一致地呈现。
Unicode 向后兼容 ASCII。前 128 个 Unicode 代码点对应于 ASCII 字符。

什么是 ASCII 字符表？

ASCII 表是一种字符编码标准，使用 7 位二进制数表示 128 个字符。ASCII 是 American Standard Code for Information Interchange (美国信息交换标准代码) 的缩写。

ASCII 表包含：

大写和小写英文字母
数字
标点符号
控制字符
特殊字符

每个 ASCII 字符都映射到一个介于 0 和 127 之间的十进制数。它允许使用从 0000000 到 1111111 的二进制数来编码字符。

前 32 个 ASCII 码 (0-31) 保留给不可打印的控制功能字符，如空字符、制表符、换行符、回车符等。

码位 32 到 47 表示各种标点符号。
码位 48 到 57 表示数字 0 到 9。
码位 65 到 90 是大写字母 A 到 Z。
码位 97 到 122 是小写字母 a 到 z。

其余码位用于其他符号和控制字符。下面是完整的 ASCII 标准表，显示了每个字符及其对应的十进制和十六进制码值：

十进制	十六进制	Character
0	00	NUL (空字符)
1	01	SOH (标题开始)
2	02	STX (文本开始)
3	03	ETX (文本结束)
4	04	EOT (传输结束)
5	05	ENQ (询问)
6	06	ACK (确认)
7	07	BEL (响铃)
8	08	BS (退格)
9	09	TAB (水平制表符)
10	0A	LF (换行)
11	0B	VT (垂直制表符)
12	0C	FF (换页)
13	0D	CR (回车)
14	0E	SO (移出)
15	0F	SI (移入)
16	10	DLE (数据链路转义)
17	11	DC1 (设备控制 1)
18	12	DC2 (设备控制 2)
19	13	DC3 (设备控制 3)
20	14	DC4 (设备控制 4)
21	15	NAK (否定确认)
22	16	SYN (同步空闲)
23	17	ETB (传输块结束)
24	18	CAN (取消)
25	19	EM (介质结束)
26	1A	SUB (替换)
27	1B	ESC (转义)
28	1C	FS (文件分隔符)
29	1D	GS (组分隔符)
30	1E	RS (记录分隔符)
31	1F	US (单元分隔符)
32	20	(空格)
33	21	!
34	22	"
35	23	#
36	24	$
37	25	%
38	26	&
39	27	'
40	28	(
41	29	)
42	2A	*
43	2B	+
44	2C	,
45	2D	-
46	2E	.
47	2F	/
48	30	0
49	31	1
50	32	2
51	33	3
52	34	4
53	35	5
54	36	6
55	37	7
56	38	8
57	39	9
58	3A	:
59	3B	;
60	3C	<
61	3D	=
62	3E	>
63	3F	?
64	40	@
65	41	A
66	42	B
67	43	C
68	44	D
69	45	E
70	46	F
71	47	G
72	48	H
73	49	I
74	4A	J
75	4B	K
76	4C	L
77	4D	M
78	4E	N
79	4F	O
80	50	P
81	51	Q
82	52	R
83	53	S
84	54	T
85	55	U
86	56	V
87	57	W
88	58	X
89	59	Y
90	5A	Z
91	5B	[
92	5C	\
93	5D	]
94	5E	^
95	5F	_
96	60	`
97	61	a
98	62	b
99	63	c
100	64	d
101	65	e
102	66	f
103	67	g
104	68	h
105	69	i
106	6A	j
107	6B	k
108	6C	l
109	6D	m
110	6E	n
111	6F	o
112	70	p
113	71	q
114	72	r
115	73	s
116	74	t
117	75	u
118	76	v
119	77	w
120	78	x
121	79	y
122	7A	z
123	7B	{
124	7C	\|
125	7D	}
126	7E	~
127	7F	DEL

它涵盖了 128 个字符的 ASCII 集，包括控制字符、可打印字符、标点符号和特殊符号。该表提供了表示 ASCII 编码标准中每个字符的十进制和十六进制值。

C++ 实现

获取需要转换的 ASCII 字符的十进制值。例如，'A' 的十进制值为 65。
对于 0 到 127 之间的 ASCII 值，只需将 ASCII 十进制值直接分配给 Unicode 代码点即可。这是有效的，因为 Unicode 向后兼容 ASCII，并且对于前 128 个字符保持相同的值。
所以对于 ASCII 值 65 的 'A'，等效的 Unicode 代码点值也为 65。
要将其转换为实际的 Unicode 字符，请在 C++ 中将代码点 int 变量转换为 char 或 wchar_t 类型。

例如

int unicode = 65; 
wchar_t unicodeChar = (wchar_t)unicode; // unicodeChar contains 'A'

这会将 ASCII 值复制到 Unicode 变量，该变量将其解释为 Unicode 代码点并进行转换。
对于高于 127 的 ASCII 值，需要查找表或 switch 语句才能将 ASCII 值映射到相应的 Unicode 代码点。
mbstowcs 或 MultiByteToWideChar 等 Unicode 库函数也可以将 ASCII 转换为 Unicode。

因此，总而言之，对于 ASCII 范围 0-127，只需将 ASCII 十进制值作为 Unicode 分配/转换即可。使用映射机制来处理 127 以上的扩展 ASCII，以获取等效的 Unicode 代码点。将结果整数代码点转换为wchar_t或 char 以获取 Unicode 字符。

#include <iostream>

int main() {

 std::cout << "Enter an ASCII code (0-127): ";
 int asciiCode;
 std::cin >> asciiCode;

 // Convert ASCII to Unicode
 int unicode = asciiCode;
 
 // Print equivalent Unicode character
 std::wcout << "Unicode character: " << (wchar_t)unicode << std::endl;

 return 0;
}

输出

Enter an ASCII code (0-127): 65
Unicode character: A

下一个主题C 或 cpp 程序用于三角形火柴棍数

程序将 ASCII 转换为 Unicode（C++）

什么是 ASCII 码？

什么是 Unicode？

什么是 ASCII 字符表？

C++ 实现

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

C++ 教程

C++ 控制语句

C++ 函数

C++ 数组

C++ 类和对象

C++ 构造函数

C++ 继承

C++ 多态

C++ 抽象

C++ 命名空间

C++ 模板

C++ 字符串

C++ 指针

信号处理

C++ 异常

C++ 文件与流

C++ STL 教程

面试题

选择题

C++ 程序

C++ STL Stack

C++ STL Bitset

C++ STL Deque

C++ STL List

C++ STL Map

C++ STL Math

C++ STL priority_queue

C++ STL Queue

C++ STL Multiset

C++ STL Multimap

C++ STL Set

C++ STD Strings

C++ STL Vector

C++ 操纵符

C++ STL Algorithms

C++ Algorithm

C++ Iterators

C++ 杂项

程序将 ASCII 转换为 Unicode（C++）

什么是 ASCII 码？

什么是 Unicode？

什么是 ASCII 字符表？

C++ 实现

相关帖子

在 C++ 中绘制不使用浮点运算的圆

C++ Tellg() 函数

C++ 调用约定

C++ 中不含重复字符的最长公共子序列

C++ 并发

C++ std::allocator()

C++ 设计模式

C++ Strspn() 函数

C++ 拷贝构造函数与赋值运算符的区别

C++ 私有析构函数

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器