机器学习中的隐马尔可夫模型

2025年6月24日 | 阅读 8 分钟

隐马尔可夫模型（HMM）是一种概率模型，常用于机器学习中，例如语音识别、自然语言处理和生物信息学等任务。它们之所以成为建模数据序列的流行选择，是因为即使数据嘈杂或不完整，它们也能有效地捕捉数据的底层结构。在本文中，我们将对隐马尔可夫模型进行全面概述，包括其数学基础、应用和局限性。

什么是隐马尔可夫模型？

隐马尔可夫模型（HMM）是一种概率模型，它由一系列隐状态组成，每个隐状态都会生成一个观测值。隐状态通常是不可直接观察的，HMM的目标是根据观测值序列来估计隐状态序列。HMM由以下组成部分定义：

一组 N 个隐状态，S = {s1, s2, ..., sN}。
一组 M 个观测值，O = {o1, o2, ..., oM}。
一个初始状态概率分布，? = {?1, ?2, ..., ?N}，它指定了开始于每个隐状态的概率。
一个转移概率矩阵，A = [aij]，定义了从一个隐状态移动到另一个隐状态的概率。
一个发射概率矩阵，B = [bjk]，定义了从给定隐状态发射一个观测值的概率。

HMM背后的基本思想是，隐状态生成观测值，而观测到的数据用于估计隐状态序列。这通常被称为前向-后向算法。

隐马尔可夫模型的应用

现在，我们将探讨HMM的一些关键应用，包括语音识别、自然语言处理、生物信息学和金融。

语音识别
HMM最著名的应用之一是语音识别。在该领域，HMM用于对构成语音的不同声音和音素进行建模。在这种情况下，隐状态对应于不同的声音或音素，而观测值是由语音生成的声学信号。目标是根据观测到的声学信号来估计隐状态序列，该序列对应于语音的转录。HMM之所以特别适用于语音识别，是因为即使数据嘈杂或不完整，它们也能有效地捕捉语音的底层结构。在语音识别系统中，HMM通常在大量的语音信号数据集上进行训练，然后估计出的HMM参数用于实时转录语音。
自然语言处理
HMM的另一个重要应用是自然语言处理。在该领域，HMM用于词性标注、命名实体识别和文本分类等任务。在这些应用中，隐状态通常与文本的底层语法或结构相关联，而观测值是文本中的单词。目标是根据观测到的单词来估计隐状态序列，该序列对应于文本的结构或含义。HMM在自然语言处理中有用，因为即使数据嘈杂或模糊，它们也能有效地捕捉文本的底层结构。在自然语言处理系统中，HMM通常在大量的文本数据集上进行训练，然后估计出的HMM参数用于执行各种NLP任务，例如文本分类、词性标注和命名实体识别。
生物信息学
HMM在生物信息学中也得到广泛应用，用于对DNA、RNA和蛋白质序列进行建模。在这种情况下，隐状态对应于不同类型的残基，而观测值是残基序列。目标是根据观测到的残基序列来估计隐状态序列，该序列对应于分子的底层结构。HMM在生物信息学中有用，因为即使数据嘈杂或不完整，它们也能有效地捕捉分子的底层结构。在生物信息学系统中，HMM通常在大量分子序列数据集上进行训练，然后估计出的HMM参数用于预测新分子序列的结构或功能。
融资
最后，HMM也已在金融领域中使用，用于对股票价格、利率和货币汇率进行建模。在这些应用中，隐状态对应于不同的经济状态，例如牛市和熊市，而观测值是股票价格、利率或汇率。目标是根据观测到的价格、费率或汇率来估计隐状态序列，该序列对应于底层经济状态。HMM在金融中有用，因为即使数据嘈杂或不完整，它们也能有效地捕捉底层经济状态。在金融系统中，HMM通常在大量金融数据集上进行训练，然后估计出的HMM参数用于对未来市场趋势做出预测或开发投资策略。

隐马尔可夫模型的局限性

现在，我们将探讨HMM的一些关键局限性，并讨论它们如何影响基于HMM的系统的准确性和性能。

建模能力有限
HMM的一个关键局限性在于其建模能力相对有限。HMM旨在对数据序列进行建模，其中数据的底层结构由一组隐状态表示。然而，数据的结构可能非常复杂，而HMM的简单结构可能不足以准确地捕捉所有细节。例如，在语音识别中，语音声音与相应的声学信号之间的复杂关系可能无法被HMM的简单结构完全捕捉。
过拟合
HMM的另一个局限性是，它们可能容易过拟合，尤其是在隐状态数量很大或训练数据量有限时。过拟合发生在模型过度拟合训练数据而无法泛化到新数据时。当模型应用于实际数据时，这可能导致性能下降并产生高错误率。为了避免过拟合，重要的是仔细选择隐状态的数量，并使用适当的正则化技术。
鲁棒性不足
HMM在面对数据中的噪声和变异性方面也受到其鲁棒性的限制。例如，在语音识别中，语音产生的声学信号可能受到各种失真和噪声的影响，这使得HMM难以准确估计数据的底层结构。在某些情况下，这些失真和噪声可能导致HMM做出错误的决策，从而导致性能下降。为了解决这些局限性，通常需要使用额外的处理和滤波技术，例如降噪和归一化，在将数据输入HMM之前对其进行预处理。
计算复杂性
最后，HMM的计算复杂性也可能限制其应用，尤其是在处理大量数据或使用复杂模型时。HMM的计算复杂性源于需要估计模型的参数以及计算给定模型下数据的似然度。对于大型模型或高频采样的A数据来说，这可能非常耗时且计算成本高昂。为了解决此限制，通常需要使用并行计算技术或使用可降低模型计算复杂性的近似方法。

使用 Python 实现 HMM

作为参考，我们将使用 Python 代码实现用于词性标注的隐马尔可夫模型。

导入库

import numpy as np
import pandas as pd
import seaborn as sns
from tqdm import tqdm
from matplotlib import pyplot as plt

from sklearn.model_selection import GroupShuffleSplit
from hmmlearn import hmm
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

导入数据

dataset = pd.read_csv("NER dataset.csv", encoding='latin1')
dataset = dataset.fillna(method="ffill")
dataset = dataset.rename(columns={'Sentence #': 'sentence'})
dataset.head(5)

输出

计算数据中标签和单词的总数。这将在以后派上用场。

tags = list(set(dataset.POS.values))
words = list(set(dataset.Word.values))
len(tags), len(words)

输出

我们无法使用“训练测试拆分”来正确分割数据，因为这样做会导致某些句子成分包含在训练集中，而其他成分包含在测试集中。我们改为使用“GroupShuffleSplit”。

y = dataset.POS
X = dataset.drop('POS', axis=1)

groupshufflesplit = GroupShuffleSplit(n_splits=2, test_size=.33, random_state=42)
ix_train, ix_test = next(groupshufflesplit.split(X, y, groups=dataset['sentence']))

dataset_train = dataset.loc[ix_train]
dataset_test = dataset.loc[ix_test]

dataset_train

输出

在检查了拆分数据后，一切似乎都井井有条。

验证训练集中的标签和单词数量。

tags = list(set(dataset_train.POS.values))
words = list(set(dataset_train.Word.values))
len(tags), len(words)

输出

标签数量足够，但单词数量（29k 对 35k）不足。

因此，我们必须随机地向训练数据集中添加一些 UNKNOWN 单词，之后我们必须重新计算单词列表并生成数字到单词的映射。

dataframe_update = dataset_train.sample(frac=.15, replace=False, random_state=42)
dataframe_update.Word = 'UNKNOWN'
dataset_train.update(dataframe_update)
words = list(set(dataset_train.Word.values))
# Convert words and tags into numbers
word2id = {w: i for i, w in enumerate(words)}
tag2id = {t: i for i, t in enumerate(tags)}
id2tag = {i: t for i, t in enumerate(tags)}
len(tags), len(words)

输出

可以使用 Baum-Welch 算法通过使用 Baum-Welch 算法来训练隐马尔可夫模型。但是，训练的唯一输入是数据集（单词）。

我们无法将状态映射回词性标签。

因此，我们必须确定“hmmlearn”的模型参数。

tags_count = dict(dataset_train.POS.value_counts())
tags_to_word_count = dataset_train.groupby(['POS']).apply(lambda grp: grp.groupby('Word')['POS'].count().to_dict()).to_dict()
init_tags_count = dict(dataset_train.groupby('sentence').first().POS.value_counts())


tags_to_next_tags_count = np.zeros((len(tags), len(tags)), dtype=int)
sentences = list(dataset_train.sentence)
pos = list(dataset_train.POS)
for i in range(len(sentences)) :
    if (i > 0) and (sentences[i] == sentences[i - 1]):
        prevtagid = tag2id[pos[i - 1]]
        nexttagid = tag2id[pos[i]]
        tags_to_next_tags_count[prevtagid][nexttagid] += 1

my_start_prob = np.zeros((len(tags),))
my_transmat = np.zeros((len(tags), len(tags)))
my_emission_prob = np.zeros((len(tags), len(words)))
num_sentences = sum(init_tags_count.values())
sum_tags_to_next_tags = np.sum(tags_to_next_tags_count, axis=1)
for tag, tagid in tag2id.items():
    floatCountTag = float(tags_count.get(tag, 0))
    my_start_prob[tagid] = init_tags_count.get(tag, 0) / num_sentences
    for word, wordid in word2id.items():
        my_emission_prob[tagid][wordid]= tags_to_word_count.get(tag, {}).get(word, 0) / floatCountTag
    for tag2, tagid2 in tag2id.items():
        my_transmat[tagid][tagid2]= tags_to_next_tags_count[tagid][tagid2] / sum_tags_to_next_tags[tagid]

初始化 HMM

model = hmm.MultinomialHMM(n_components=len(tags), algorithm='viterbi', random_state=42)
model.startprob_ = my_start_prob
model.transmat_ = my_transmat
model.emissionprob_ = my_emission_prob

我们必须首先将某些单词更改为“UNKNOWN”一词，因为它们可能永远不会出现在训练集中。

然后将“test data”分割成“samples”和“lengths”并发送到 HMM。

dataset_test.loc[~dataset_test['Word'].isin(words), 'Word'] = 'UNKNOWN'
test_word = list(dataset_test.Word)
samples_of = []
for i, val in enumerate(test_word):
    samples_of.append([word2id[val]])
   
# TODO use panda solution
lengths = []
count = 0
sentences = list(dataset_test.sentence)
for i in range(len(sentences)) :
    if (i > 0) and (sentences[i] == sentences[i - 1]):
        count += 1
    elif i > 0:
        lengths.append(count)
        count = 1
    else:
        count = 1

# This code is very slow
predict_pos = model.predict(samples_of, lengths)
predict_pos

输出

tags_test = list(dataset_test.POS)
pos_test = np.zeros((len(tags_test), ), dtype=int)
for i, val in enumerate(tags_test):
    pos_test[i] = tag2id[val]
len(predict_pos), len(pos_test), len(samples_of), len(test_word)

输出

def reportTest(y_pred, y_test):
    print("The accuracy is {}".format(accuracy_score(y_test, y_pred)))
    print("The precision is {}".format(precision_score(y_test, y_pred, average='weighted')))
    print("The recall is {}".format(recall_score(y_test, y_pred, average='weighted')))
    print("The F1-Score is {}".format(f1_score(y_test, y_pred, average='weighted')))

min_length = min(len(pos_test), len(pos_test))

reportTest(pos_test[:min_length], pos_test[:min_length])

输出

HMM模型的准确率非常高，约为 96%。

下一主题使用深度学习集成预测用户需求的马尔可夫模型

机器学习中的隐马尔可夫模型

什么是隐马尔可夫模型？

隐马尔可夫模型的应用

隐马尔可夫模型的局限性

使用 Python 实现 HMM

导入库

导入数据

初始化 HMM

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

机器学习

监督式学习

分类

杂项

相关教程

面试题

机器学习中的隐马尔可夫模型

什么是隐马尔可夫模型？

隐马尔可夫模型的应用

隐马尔可夫模型的局限性

使用 Python 实现 HMM

导入库

导入数据

初始化 HMM

相关帖子

文本摘要简介

泰坦尼克号 - 机器学习灾难

机器学习线性代数

机器学习中的安置预测

机器学习中的地震预测

联合概率分布

机器学习中的图像处理

Keras：注意力与 Seq2Seq

平稳时间序列

机器学习在媒体领域的应用

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器