每位数据科学家都应了解的 3 种距离

2025年1月7日 | 阅读 4 分钟

在本教程中,我们将讨论一些数据科学家应该了解的距离。但在我们开始之前,让我们简要讨论一下什么是数据科学家。

什么是数据科学家?

数据科学家是利用科学策略、技术、算法和结构从结构化和非结构化数据中提取记录和见解的专业人士。他们结合了多个学科的技能,包括数据、计算机技术知识和领域知识,以分析和解释复杂的数据系统。

角色和职责

  • 数据收集和清理:从各种资源收集数据,并确保其干净、准确且可用。
  • 数据分析:使用统计和机器学习技术分析数据并识别模式或趋势。
  • 模型构建:使用机器学习算法开发预测模型,以预测未来趋势或行为。
  • 可视化:创建可视化以易于理解的方式向利益相关者传达发现。
  • 报告:在报告、仪表板和演示中汇编和呈现结果。
  • 解决问题:应用数据驱动的方法来解决业务问题。
  • 协作:与跨职能团队(包括业务分析师、IT 和产品经理)合作,实施数据驱动的解决方案。

数据科学家应了解的一些距离

在下一节中,我们将讨论数据科学家应该了解的一些距离。这些距离通常用于各种应用程序和算法。以下列出了其中三种距离:

  1. 欧几里得距离
  2. 曼哈顿距离
  3. 余弦相似度

现在让我们详细讨论这些距离

公式 1:欧几里得距离

欧几里得距离是最常见的距离度量,表示欧几里得空间中两点之间的直线距离。它源自勾股定理,并用于各种应用,包括聚类、分类和图像处理。

公式

d(p,q) = √∑ n i=1 (pi - qi)2

其中,p 和 q 是 n 维空间中的两个点,其中

?=(?1,?2,?,??)
?=(?1,?2,?,??)

示例

输出

Euclidean Distance: 5.196152422706632 

说明

  • 定义点:考虑多维空间中的 2 个点。例如,在 3 维空间中,每个点可以有三个坐标(例如,point1=(1,2,3) 和 point2=(4,5,6))。
  • 计算差值:计算两点之间每个相应坐标的差值。
  • 平方差值:将每个差值平方。
  • 总平方差值:将所有平方差值相加。
  • 平方根:取总和的平方根以获得欧几里得距离。这为您提供了两点在空间中的直线距离。

公式 2:曼哈顿距离

曼哈顿距离,也称为 L1 距离或出租车距离,是其笛卡尔坐标中绝对差值的总和。它通过仅沿着网格线移动来测量点之间的距离。

公式

对于两个点 p=(p1,p2,...,pn) 和 q=(q1,q2,...,qn),曼哈顿距离 d 由下式给出

d(p,q) = ∑n i=1 |pi - qi|

示例

输出

Manhattan Distance: 9

说明

  • 定义点:考虑多维空间中的点。同样,每个点都有坐标(例如,point1=(1,2,3) 和 point2=(4,5,6))。
  • 计算绝对差值:计算两个点之间每个相应坐标的绝对差值。通过这种方式,将第一个点的每个坐标减去第二个点相应的坐标,然后取结果的绝对值。
  • 总绝对差值:将所有这些绝对差值相加。结果是曼哈顿距离,它代表沿着空间网格线行驶的总距离。

公式 3:余弦相似度

余弦相似度衡量内积空间中非零向量之间夹角的余弦值。它用于确定向量的相似度,忽略它们的幅度,通常用于文本分析和信息检索。

公式

对于两个向量 a 和 b,余弦相似度 sim 由下式给出

sim(a,b) = a⋅b / (∥a∥∥b∥) = (∑n i=1 ai bi) / (√ (∑n i=1 ai^2) √ (∑n i=1 bi^2))

示例

输出

Cosine Similarity: 0.9746318461970762 

说明

  • 定义向量:考虑多维空间中的向量,其中每个向量有多个分量(例如,vector1=(1,2,3) 和 vector2=(4,5,6))。
  • 点积:计算两个向量的点积。这包括将两个向量的每个相应分量对相乘,然后将这些乘积的总和相加。
  • 计算范数:计算每个向量的范数(幅度)。这可以通过对向量的每个分量进行平方,对这些平方和进行相加,然后取和的平方根来完成。
  • 用范数乘积除以点积:用两个向量的范数乘积除以它们的点积。结果是余弦相似度,它衡量两个向量之间夹角的余弦值,指示向量在方向上的相似程度,而忽略它们的幅度。值范围从 -1 到 1,其中 1 表示向量方向相同;0 表示它们正交(不相关);-1 表示它们方向相反。