计算机网络中URL的定义

2024年8月28日 | 阅读 8 分钟

引言

URL(统一资源定位符)是我们日常互联网体验和广阔计算机网络中最基本的概念之一。URL 用作互联网地址,用于在万维网上查找资源,并且对互联网的运行至关重要。本教程将深入探讨 URL 在计算机网络中的重要性及其定义、组成部分、结构和历史。

URL 的定义

URL,也称为统一资源定位符,是用于在互联网上标识和查找资源的 Web 地址。这些资源可以是可通过万维网访问的任何数字内容,包括网页、文件、图片、视频和其他媒体。URL 是指向特定资源的引用或指针,使用户和 Web 浏览器能够获取所需的内容。

随着互联网的快速发展,URL 已成为一种标准的导航方法,提供了一种可靠且用户友好的方式来访问跨不同平台和服务器的内容。URL 是当今互联网使用中不可或缺的一部分,对于 Web 浏览器、搜索引擎和整体 Web 基础架构的顺利运行至关重要。

URL 的组成部分

URL 由多个部分组成,每个部分都用于定位和标识特定站点。这些元素共同构成一个完整的 URL。以下是 URL 的基本组成部分:

1. 方案 (Scheme)

方案指示用于访问资源的协议或方法,也称为协议。它提供了如何检索资源的说明。常见的方案包括:

  • http: 超文本传输协议,用于标准网页。
  • https: 安全超文本传输协议,HTTP 的安全版本。
  • ftp: 文件传输协议,用于传输文件。
  • file: 指定本地系统上的文件。
  • mailto: 用于电子邮件地址。
  • tel: 用于电话号码。
  • data: 用于在网页中嵌入数据的 Data URL。

方案后会跟一个冒号和两个斜杠(例如 **'http://'** 或 **'https://'**)。

2. 主机 (Host)

主机部分标识资源所在的精确服务器或计算机。通常,它显示为域名或 IP 地址。例如,当 URL 为 **'https://www.example.com'** 时,**'www.example.com'** 是主机。

3. 端口 (Port)

端口是一个可选的附加元素,用于指定连接到主机时要使用的网络端口号。如果不存在,将使用所选方案的默认端口。例如,HTTP 的默认端口是 80,而 HTTPS 的默认端口是 443。

4. 路径 (Path)

路径组件指定资源在主机服务器上的位置或文件路径。它通常具有类似目录的结构。例如,在 URL 'https://www.example.com/products/index.html' 中,路径是 '/products/index.html'。

5. 查询 (Query)

如果存在,查询组件会为资源提供要传递的附加参数或数据。它经常用于向 Web 应用程序服务器提供用户输入或数据。查询组件可以包含多个键值对,它以问号 ( **'?'** ) 开始,并以和号 ( **'&'** ) 分隔。例如,在 URL 'https://www.example.com/search?q=url+encoding' 中,查询是 **'q=url+encoding'**。

6. 片段标识符 (Fragment Identifier)

片段标识符,也称为锚点或片段,用于指定资源内的特定区域或位置。它前面有一个井号 ( **'#'** )。在网页中,片段标识符通常用于跳转到长篇文章的特定部分。例如,URL 'https://www.example.com/about#team' 的片段标识符是 **'#team'**。

URL 编码

URL 只能包含少数字符,主要是字母数字字符以及下划线、连字符、句点和波浪号等特殊字符。URL 编码包括不属于此集合的字符,例如空格或非 ASCII 字符。

在编码 URL 时,不安全或保留字符会被替换为表示该字符 ASCII 码的两个十六进制数字,后跟一个百分号。例如,字母 "é" 被编码为 **'%C3%A9'**,空格被编码为 **'%20'**。这种编码可确保 URL 仍然有效,并被 Web 服务器和浏览器正确解码。

当通过 URL 的查询组件传递数据或包含特殊字符时,URL 编码至关重要。

URL 类型

URL 不仅仅用于网站。根据所使用的系统,它们会在不同情况下和出于不同目的使用。以下是一些常见的 URL 类型:

1. HTTP 和 HTTPS URL

HTTP(超文本传输协议)和 HTTPS(安全 HTTP)是互联网上最常见的 URL 格式。它们用于访问在线资源和网页。HTTP 的 URL 通常以 **'http://'** 开头,而 HTTPS 的 URL 通常以 **'https://'** 开头。

2. FTP URL

FTP(文件传输协议)URL 用于通过网络进行文件传输。它们经常用于从 FTP 站点下载文件,并以 **'ftp://'** 开头。

3. 文件 URL

文件 URL 用于引用网络共享或本地文件系统上的文件。它们经常用于 Web 开发中访问本地资源,并以 **'file://'** 开头。

4. 电子邮件 URL

电子邮件 URL 用于启动带有特定收件人、主题和正文的电子邮件。它们经常出现在网页上,作为“mailto”链接,该链接会打开用户默认的电子邮件客户端,因为它们以 **'mailto:'** 开头。

5. 自定义协议

由于 URL 是可扩展的,因此开发人员可以创建自定义应用程序协议。例如,移动应用程序可以利用自定义 URL 方案来启动应用程序并执行特定任务。

URL 在计算机网络中的作用

在计算机网络和万维网上,URL 执行多项关键任务:

1. URL 解析

当用户或应用程序在 Web 浏览器中输入 URL 或使用 URL 发起网络请求时,浏览器或应用程序会执行 URL 解析。此过程包括将其拆解以连接到正确的服务器。

URL 被分解为其组成部分:方案、主机、路径和查询。URL 解析是 Web 导航和资源检索的基础。

2. 超链接

超链接是 Web 的关键组成部分,其正常工作依赖于 URL。超链接是网站上一个可点击的元素,点击后会将用户重定向到另一个网站或资源。这些链接由 URL 实现,使用户能够顺畅地在各种网站和在线页面之间切换。

3. 导航

URL 是导航 Web 的关键。用户通过输入 URL 或点击包含 URL 的链接来访问网页、文档、多媒体和其他资源。没有 URL,Web 就不可能像我们今天所知的那样存在,因为将没有标准化的机制来标识资源的位置。

4. 数据检索

URL 用于从远程服务器检索数据。当用户使用 URL 访问网页时,用户的浏览器会向主机组件中列出的服务器发送请求。服务器随后返回请求的数据,浏览器将其渲染。此过程适用于所有 Web 内容格式,包括文本文档、图片和视频。

URL 的发展

URL 的概念随着时间的推移而不断发展,以适应用户需求和不断变化的互联网环境。以下是 URL 历史上的几个重要变化:

1. URL 的标准化

万维网的创建者 Tim Berners-Lee 于 1994 年制定了第一个 URL 标准。此标准化确立了我们今天使用的 URL 的结构和语法。开发 HTTP 和 FTP 等协议是组织 Web 资源的关键里程碑。

2. 国际化资源标识符 (IRI)

随着互联网的普及,需要支持 URL 中的非 ASCII 字符以适应多种语言和脚本。因此,开发了国际化资源标识符 (IRI),它扩展了 URL 编码以支持更多字符。IRI 对于非拉丁字母脚本语言的网站和其他在线内容尤为重要。

3. URL 缩短服务

由于社交媒体的兴起以及对简短链接共享的需求,URL 缩短服务应运而生。这些服务将长 URL 转换为较短的版本。尽管它们很有用,但也带来了链接透明度和安全问题,因为用户很难确定缩短的 URL 指向何处。

4. 应用 URL 和深度链接

随着移动应用的普及,深度链接应运而生。深度链接是 URL,它们将用户定向到应用程序内的特定点,而不仅仅是启动移动应用的主屏幕。这使得在线内容和应用功能之间的切换更加顺畅。

5. URL 和 QR 码

QR(快速响应)码是二维条形码,除了其他信息外,还可以编码 URL。通过用智能手机的摄像头扫描 QR 码,可以轻松地以物理形式(例如,在印刷材料或产品包装上)共享 URL。

6. PWA(渐进式 Web 应用)

渐进式 Web 应用 (PWA) 是 Web 应用,可提供类似原生应用的用户体验,并且可以使用 URL 访问。与传统应用一样,它们会被下载并在用户设备上运行,但通过互联网分发。URL 在启动和使用 PWA 时至关重要。

7. 安全性和 URL

Web 浏览和在线交互的安全性在很大程度上依赖于 URL。然而,它们也经常被用作多种安全威胁和攻击的载体。以下是一些 URL 安全注意事项:

8. 网络钓鱼 (Phishing)

网络钓鱼攻击经常使用欺骗性 URL,这些 URL 看起来像受信任的网站或服务。用户可能会被诱骗在看起来真实的欺诈网站上输入个人信息。用户在输入敏感数据或登录凭据之前,务必始终验证 URL 的合法性。

9. URL 欺骗 (URL Spoofing)

攻击者通过更改 URL 使其看起来像来自可靠来源,这种行为称为 URL 欺骗。这可能导致用户在不知情的情况下浏览危险网站或下载恶意内容。浏览器内置了安全防护措施,以警告用户注意潜在的危险 URL。

10. URL 重定向

网站和服务使用 URL 重定向的方法将用户从一个 URL 移动到另一个 URL。尽管 URL 重定向出于多种原因而合法,但恶意重定向会将用户发送到危险网站。现代浏览器实施了保护措施,以防止有害重定向。

11. URL 安全性和 HTTPS

通过加密用户浏览器和 Web 服务器之间传输的数据,HTTPS(安全 HTTP)的引入极大地提高了 URL 的安全性。建议用户检查浏览器的 URL 栏中的挂锁图标,以确保他们正在查看的网站使用 HTTPS。

12. URL 白名单和黑名单

组织和网络管理员经常使用 URL 过滤和分类来限制对特定网站的访问。这包括维护允许(白名单)和禁止(黑名单)的 URL 列表,以强制执行安全策略。

13. 短 URL 和可信度

URL 缩短服务引发了关于透明度和信任的问题。建议用户在点击缩短的 URL 时要格外小心,尤其是当来源不明时。一些服务提供预览功能,允许用户在点击之前查看最终 URL。