机器学习中的 OCR

27 Aug 2025 | 6分钟阅读

光学字符识别（OCR）是OCR软件运行的一个过程。该软件将打开一个数字图像，例如，包含完整文本字符的 TIFF 文件，然后尝试读取并将字符翻译成可识别的完整文本，并将它们保存为文本文件。这是一个快速的过程，可以自动将数百万张图像转换为文本文件，然后可以通过单词或字符进行搜索。对于大规模数字化项目，包括书籍、期刊和报纸等文本材料，这是一个非常有用且成本效益高的过程。市面上有几种OCR软件，但对于旧材料或非英语语言，一种流行的软件是Abbyy Finereader。该软件目前被国际上一些报纸数字化项目使用。

机器学习已成为一项卓越的技术，它能够自动从图像或扫描文档中提取和解释文本。这个过程包括在包含图像及其相应文本标签的广泛数据集上训练机器学习模型，使它们能够准确地识别和转录字符。为了实现这一点，OCR系统采用了图像处理技术的组合，如降噪、图像增强和分割。这些技术有助于在图像中分离单个字符或单词。随后，提取的文本会经过进一步处理，以提高准确性并克服不同字体、大小和方向带来的挑战。

OCR过程取决于许多因素，这些因素会显著影响结果。迄今为止的经验表明，在高质量、干净的图像（例如，新的PDF文件）上使用OCR软件会获得极好的结果，并且大多数字符都能正确识别，从而实现成功的单词搜索和检索。然而，对于旧材料，例如书籍和报纸，OCR的结果非常不稳定，因此，一些项目主张从头开始重新输入文本，而不是尝试OCR。这个过程劳动密集，有时一个项目会同时进行重新输入和OCR。通常，在做出有关OCR和重新输入决策之前，会对将要数字化的实际源材料进行抽样测试。

OCR可以帮助您节省从图像中提取文本的时间和精力，您可以通过自己输入整个文本来节省时间。

有些问题需要注意

您的图像质量、书写内容
、字体大小，您可以将字体与背景分离！字体是否倾斜或失真！
图像大小
、光照质量

ocr.space

这是一个OCR引擎，提供免费API。这意味着它将完成文本检测方面的绝大部分工作。我们只需要通过其API发送带有要扫描文本的图像，它就会返回扫描的文本。

首先，您需要获取API密钥。

访问 http://ocr.space/OCRAPI 然后点击“免费注册API密钥”。

注意：免费OCR API计划对每个IP地址每天有500次请求的限制，以防止意外的垃圾邮件。

代码

导入库

import io #The io module provides Python's main facilities for dealing with various types of I/O.
import json #JSON (JavaScript Object Notation) is a lightweight data interchange format
import cv2 # cv2.imread(), cv2.imshow() , cv2.imwrite()
import numpy as np #create a NumPy array, use broadcasting, access values, manipulate arrays, and much more
import requests #Make a request to a web page, and print the response text
import matplotlib.pyplot as plt  #Matplotlib is a comprehensive library for creating static, animated, and interactive visualizations in Python.

加载图像

现在我们将使用OpenCV(CV2)加载图像。然后，需要将图像转换为二值图像，如果它是RGB图像，则对其进行灰度化处理。灰度化处理取图像的三个RGB值，并使用以下公式将其转换为表示灰色阴影的单个值。[0-255]：255是最亮的灰色（白色），0是最暗的灰色（黑色）。

灰度化处理后，就到了阈值处理；阈值处理用于确定像素值是低于还是高于某个阈值。

如果像素值 < 阈值 ===> 变为白色像素
如果像素值 > 阈值 ===> 变为黑色像素

1和2的结果是得到一个二值图像（白色背景和黑色前景）。

# load the image using matplotlib. 
img = cv2.imread("../input/tbs-image/TBS_image.png")
height, width, _ = img.shape
height
width,height

输出

加载TBS学士学位图像后，我们需要设置OCR引擎：将图像发送到ocr.space服务器进行处理。这里有几点需要注意

将图像发送到ocr.space服务器
由于我们使用的是免费服务，因此我们不能发送最大大小为一MB的图像，因此我们需要通过压缩来缩小图像大小。
另外，要将图像发送到服务器，我们需要将图像转换为字节。

url_api = <a href="https://api.ocr.space/parse/image">"https://api.ocr.space/parse/image"</a>

# Ocr
url_api = "https://api.ocr.space/parse/image"
_, compressedimage = cv2.imencode(".jpg", img, [1, 90])
file_bytes = io.BytesIO(compressedimage)

#execute this code 

result = requests.post(url_api,
              files = {"../input/tbs-image/TBS_image.png": file_bytes},
              data = {"apikey": "eb516eb1f288957",
                      "language": "eng"})

result = result.content.decode()
result = json.loads(result)

result

输出

parsed_results = result.get("ParsedResults")[0]
text_detected = parsed_results.get("ParsedText")
text_detected

输出

使用Tesseract提取文本

# Generic Libraries
from PIL import Image
import os
import pandas as pd
import numpy as np
import re,string,unicodedata

#Tesseract Library
import pytesseract

#Warnings
import warnings
warnings.filterwarnings("ignore")

#Garbage Collection
import gc

import cv2
import numpy as np
import matplotlib.pyplot as plt
import os
import pytesseract


# Let's start with a simple image
img = cv2.imread("../input/tbs-image/TBS_image.png") # image in BGR format
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
fig = plt.figure(figsize = [10,10])
height,width,channel = img.shape
plt.imshow(img)
print(type(img))
print(height,width,channel)

输出

# As the image is simple enough, the image_to_string method reads all characters almost perfectly!
text = pytesseract.image_to_string(img)
print(text)

输出

# The output of OCR can be saved in a file in necessary
file = open('output.txt','a') # file opened in append mode
file.write(text)
file.close()

替代方法

输出

img_pil = Image.open("../input/ocr-working-in-progress/7.jpg")
MAX_SIZE = 2000
if img_pil.height > MAX_SIZE or img_pil.width > MAX_SIZE:
    scale = max(img_pil.height / MAX_SIZE, img_pil.width / MAX_SIZE)

    new_width = int(img_pil.width / scale + 0.5)
    new_height = int(img_pil.height / scale + 0.5)
    img_pil = img_pil.resize((new_width, new_height), Image.BICUBIC)

print(img_pil.width, img_pil.height)
# img_pil

输出

gray_pil = img_pil.convert("L")

rect_arr = detect(img_pil, FLAG_RECT)

img_draw = ImageDraw.Draw(img_pil)
colors = ['red', 'green', 'blue', "yellow", "pink"]

for i, rect in enumerate(rect_arr):
    x, y, w, h = rect
    img_draw.rectangle(
        (x, y, x + w, y + h),
        outline=colors[i % len(colors)],
        width=4)

img_pil

输出

OpenCV

# read the image with openCv
img = cv2.imread("../input/tbs-image/TBS_image.png")
# Convert to GrayScale
img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# Apply dilation and erosion to remove some noise
kernel = np.ones((1,1), np.uint8)
img = cv2.dilate(img, kernel,  iterations=1)
img = cv2.erode(img, kernel, iterations=1)

cv2.imwrite(src_path + "removed_noise.png", img)

#Apply threshold to get image with only black and white
img = cv2.adaptiveThreshold (img, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 2)
cv2.imwrite(src_path + "thres.png",img)

#Recognize text with tesseract for python
result = pytesseract.image_to_string(Image.open(src_path + "thres.png"))


print("---------Start Recognize text from image---------")
print (get_string(src_path+img_path))
print("--------Done-----------")

输出

上述过程中生成的文件

结论

总之，由机器学习驱动的OCR是一项变革性技术，它彻底改变了我们从图像和扫描文档中提取和解释文本的方式。通过利用大型数据集和训练复杂的机器学习模型，OCR系统在识别和转录字符方面取得了卓越的准确性。机器学习OCR在各行各业都有应用，支持文档数字化、简化表单处理以及通过从图像中提取文本来促进数据分析。凭借其自动化信息管理任务和提高效率的能力，机器学习OCR处于创新的前沿，为提高生产力和简化数字时代的流程开启了新的可能性。

下一话题使用机器学习进行空气污染预测

机器学习中的 OCR

注意：免费OCR API计划对每个IP地址每天有500次请求的限制，以防止意外的垃圾邮件。

导入库

加载图像

使用Tesseract提取文本

替代方法

OpenCV

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

机器学习中的 OCR

注意：免费OCR API计划对每个IP地址每天有500次请求的限制，以防止意外的垃圾邮件。

导入库

加载图像

使用Tesseract提取文本

替代方法

OpenCV

结论

相关帖子

蒙特卡洛方法

流行的机器学习平台

机器学习流水线

机器学习中的成本函数

联合、边缘和条件概率

张量处理单元

机器学习中的超参数

机器学习中的因果关系简介

神经网络中的学习率 (eta)

如何从零开始学习机器学习

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器