在 Apache Solr 中删除文档

17 Mar 2025 | 4 分钟阅读

如果我们要从 Apache Solr 的索引中删除文档,我们需要初始化我们想要删除的文档的 ID,并将其置于 <delete> </delete> 标签之间。

上面给出的 XML 代码可以用于删除 ID 为 101 和 102 的文档。我们只需要将这段代码保存为 delete.xml。

如果我们要从属于名为 my_core 的核心的索引中删除文档,我们可以使用 post 工具发布 delete.xml 文件,如下所示。

当我们编译并运行上面的命令时,我们将收到以下输出

/ home/ Hadoop/ java/ bin/ home/ Hadoop/ Solr/ dist/ Solr-core
8.2.0.jar -Dauto = yes -Dc = my_core -Ddata = files 
org.apache.Solr.util.SimplePostTool delete.xml 
SimplePostTool version 5.0.0 
Posting files to [base] url https://:8983/Solr/my_core/update... 
Entering auto mode. File endings considered are 
xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,
rtf,htm,html,txt,log 
POSTing file delete.xml (application/xml) to [base] 
1 file indexed. 
COMMITting Solr index changes to https://:8983/Solr/my_core/update... 
Time spent: 0:00:00.179

验证数据

转到 Apache Solr Web 界面的主页,然后选择 my_core 作为核心。尝试通过在文本区域 q 中传递查询 ":" 来获取所有文档,然后运行查询。当您运行查询时,您可以注意到指定的文档已被删除。

Deleting Document in Apache Solr

删除字段

在某些情况下,我们必须根据 ID 以外的字段删除文档。例如,如果我们想要删除城市为纽约的文档。在这种情况下,我们必须在 <query></query> 标签对中指定字段的名称和值。

将上面的 XML 文件另存为 delete_field.xml,并使用 Solr 的 post 工具在核心名称 my_core 上执行删除操作。

当您执行上面给出的命令时,它会给出以下输出。

/home/Hadoop/java/bin/java -classpath /home/Hadoop/Solr/dist/Solr-core
6.2.0.jar -Dauto = yes -Dc = my_core -Ddata = files 
org.apache.Solr.util.SimplePostTool delete_field.xml 
SimplePostTool version 5.0.0 
Posting files to [base] url https://:8983/Solr/my_core/update... 
Entering auto mode. File endings considered are 
xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,
rtf,htm,html,txt,log 
POSTing file delete_field.xml (application/xml) to [base] 
1 files indexed. 
COMMITting Solr index changes to https://:8983/Solr/my_core/update... 
Time spent: 0:00:00.084

验证文档

转到 Apache Solr Web 界面的主页,然后选择 my_core 作为核心。尝试通过在文本区域 q 中传递查询 ":" 来获取所有文档并执行查询。当您运行该命令时,您可以观察到包含指定字段值对的文档已被删除。

Deleting Document in Apache Solr

删除所有文档

正如我们删除了一个特定的字段一样,我们可以从索引中删除所有文档,我们只需要在 <query></query> 标签之间传递符号 ":",如下所示。

将上面的 xml 文件另存为 delete_all.xml,并使用 Solr 的 post 工具对核心名称 my_core 执行删除操作。

当您执行上面给出的命令时,它将返回以下输出。

/home/Hadoop/java/bin/java -classpath /home/Hadoop/Solr/dist/Solr-core
6.2.0.jar -Dauto = yes -Dc = my_core -Ddata = files 
org.apache.Solr.util.SimplePostTool deleteAll.xml 
SimplePostTool version 5.0.0 
Posting files to [base] url https://:8983/Solr/my_core/update... 
Entering auto mode. File endings considered are 
xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,
htm,html,txt,log 
POSTing file deleteAll.xml (application/xml) to [base] 
1 files indexed. 
COMMITting Solr index changes to https://:8983/Solr/my_core/update... 
Time spent: 0:00:00.138

验证文档

重定向到 Apache Solr Web 界面的主页,并选择 my_core 作为核心配置。通过在文本区域 q 中传递查询 ":" 来检索所有文档,然后执行查询。运行后,您可以观察到包含指定字段值对的文档已被删除。

Deleting Document in Apache Solr

使用 Java API 删除文档

下面是可用于将文档添加到 Apache Solr 索引的 Java 程序。重写此代码并将其保存在一个名为 UpdatingDocument.java 的文件中。

通过在终端中执行以下命令来编译上面编写的代码

当我们执行上面的命令时,我们将得到以下结果。

Documents deleted