机器学习中的 OCR

27 Aug 2025 | 6分钟阅读
OCR with Machine Learning

光学字符识别(OCR)是OCR软件运行的一个过程。该软件将打开一个数字图像,例如,包含完整文本字符的 TIFF 文件,然后尝试读取并将字符翻译成可识别的完整文本,并将它们保存为文本文件。这是一个快速的过程,可以自动将数百万张图像转换为文本文件,然后可以通过单词或字符进行搜索。对于大规模数字化项目,包括书籍、期刊和报纸等文本材料,这是一个非常有用且成本效益高的过程。市面上有几种OCR软件,但对于旧材料或非英语语言,一种流行的软件是Abbyy Finereader。该软件目前被国际上一些报纸数字化项目使用。

机器学习已成为一项卓越的技术,它能够自动从图像或扫描文档中提取和解释文本。这个过程包括在包含图像及其相应文本标签的广泛数据集上训练机器学习模型,使它们能够准确地识别和转录字符。为了实现这一点,OCR系统采用了图像处理技术的组合,如降噪、图像增强和分割。这些技术有助于在图像中分离单个字符或单词。随后,提取的文本会经过进一步处理,以提高准确性并克服不同字体、大小和方向带来的挑战。

OCR过程取决于许多因素,这些因素会显著影响结果。迄今为止的经验表明,在高质量、干净的图像(例如,新的PDF文件)上使用OCR软件会获得极好的结果,并且大多数字符都能正确识别,从而实现成功的单词搜索和检索。然而,对于旧材料,例如书籍和报纸,OCR的结果非常不稳定,因此,一些项目主张从头开始重新输入文本,而不是尝试OCR。这个过程劳动密集,有时一个项目会同时进行重新输入和OCR。通常,在做出有关OCR和重新输入决策之前,会对将要数字化的实际源材料进行抽样测试。

OCR可以帮助您节省从图像中提取文本的时间和精力,您可以通过自己输入整个文本来节省时间。

有些问题需要注意

  • 您的图像质量、书写内容
  • 、字体大小,您可以将字体与背景分离!字体是否倾斜或失真!
  • 图像大小
  • 、光照质量

ocr.space

这是一个OCR引擎,提供免费API。这意味着它将完成文本检测方面的绝大部分工作。我们只需要通过其API发送带有要扫描文本的图像,它就会返回扫描的文本。

首先,您需要获取API密钥。

访问 http://ocr.space/OCRAPI 然后点击“免费注册API密钥”。

注意:免费OCR API计划对每个IP地址每天有500次请求的限制,以防止意外的垃圾邮件。

代码

导入库

加载图像

现在我们将使用OpenCV(CV2)加载图像。然后,需要将图像转换为二值图像,如果它是RGB图像,则对其进行灰度化处理。灰度化处理取图像的三个RGB值,并使用以下公式将其转换为表示灰色阴影的单个值。[0-255]:255是最亮的灰色(白色),0是最暗的灰色(黑色)。

OCR with Machine Learning

灰度化处理后,就到了阈值处理;阈值处理用于确定像素值是低于还是高于某个阈值。

  • 如果像素值 < 阈值 ===> 变为白色像素
  • 如果像素值 > 阈值 ===> 变为黑色像素

1和2的结果是得到一个二值图像(白色背景和黑色前景)。

输出

OCR with Machine Learning

输出

OCR with Machine Learning

加载TBS学士学位图像后,我们需要设置OCR引擎:将图像发送到ocr.space服务器进行处理。这里有几点需要注意

  1. 将图像发送到ocr.space服务器
  2. 由于我们使用的是免费服务,因此我们不能发送最大大小为一MB的图像,因此我们需要通过压缩来缩小图像大小。
  3. 另外,要将图像发送到服务器,我们需要将图像转换为字节。

输出

OCR with Machine Learning

输出

OCR with Machine Learning

使用Tesseract提取文本

输出

OCR with Machine Learning

输出

OCR with Machine Learning
OCR with Machine Learning

替代方法

输出

OCR with Machine Learning

输出

OCR with Machine Learning

输出

OCR with Machine Learning

OpenCV

输出

OCR with Machine Learning

上述过程中生成的 文件

OCR with Machine Learning
OCR with Machine Learning

结论

总之,由机器学习驱动的OCR是一项变革性技术,它彻底改变了我们从图像和扫描文档中提取和解释文本的方式。通过利用大型数据集和训练复杂的机器学习模型,OCR系统在识别和转录字符方面取得了卓越的准确性。机器学习OCR在各行各业都有应用,支持文档数字化、简化表单处理以及通过从图像中提取文本来促进数据分析。凭借其自动化信息管理任务和提高效率的能力,机器学习OCR处于创新的前沿,为提高生产力和简化数字时代的流程开启了新的可能性。