Apache Solr on Hadoop

17 Mar 2025 | 5 分钟阅读

我们可以将 Solr 与 Hadoop 一起使用。 Hadoop 通常处理大量数据,并帮助我们从如此庞大的数据源中找到所需的信息。 solr 不使用 Hadoop MapReduce 来处理数据。 相反,它仅使用 HDFS 文件系统进行索引和事务日志文件存储。

下载并安装 Hadoop

请按照以下步骤在您的 windows 系统上下载并安装 Hadoop。

步骤 1:转到 Hadoop 的主页。 点击链接 - www.hadoo.apache.org/ 以重定向到 Hadoop 主页。

Apache Solr on Hadoop

步骤 2:Hadoop 主页上,单击左侧菜单窗格中的 Releases。 此选项会将您重定向到 Apache Hadoop Release 页面,其中包含 Hadoop 各个版本的源文件和二进制文件的可下载镜像链接,如下图所示。

Apache Solr on Hadoop

步骤 3:现在,从链接列表中,选择最新且受支持的 Hadoop 版本,然后单击其二进制链接。 这将让您进入包含 Hadoop 二进制文件镜像的网页。

Apache Solr on Hadoop

步骤 4:单击其中一个镜像以下载 Hadoop。

Apache Solr on Hadoop

在 Linux 中使用命令提示符下载 Hadoop

步骤 1:启动您的 Linux 操作系统并使用超级用户登录打开 Linux 终端。

步骤 2:打开您需要安装 Hadoop 的目录,并使用您之前复制的链接将文件保存在该目录中,如给定代码所示。

步骤 3:使用以下命令提取下载的文件。

安装 Hadoop

要以伪分布式模式安装 Hadoop,请按照以下步骤操作

步骤 1:通过使用以下给定命令将 Hadoop 环境变量设置到 ~/.bashrc 文件中来设置 Hadoop。

步骤 2:您必须将所有更改应用于当前运行的系统。

步骤 3:配置 Hadoop - 我们可以配置所有 Hadoop 配置文件,位置在 "$HADOOP_HOME/etc/Hadoop"。 您必须根据 Hadoop 基础架构在这些配置文件中进行更改。

步骤 4:重置 Hadoop-env.sh 中的 Java 环境变量,以便用 Java 开发 Hadoop 程序。 可以通过将 JAVA_HOME 数据更改为计算机上 Java 路径的位置来完成此操作。

以下是我们配置 Hadoop 需要编辑的文件列表

  • core-site.xml:它包含诸如文件系统分配的端口号、Hadoop 实例、存储数据的内存限制以及读/写缓冲区大小等信息。 以下是打开 core-site.xml 后 <configuration>,</configuration> 标记内的属性。
  • hdfs-site.xml:它包含诸如复制数据的值、数据节点路径和本地文件系统的 namenode 路径等信息。 它表示您要保存 Hadoop 基础架构的位置。 例如

打开文件后,在 <configuration>, </configuration> 标记内添加以下属性。

  • mapred-site.xml:它可以用于指定我们使用的 MapReduce 框架。 Hadoop 默认包含 yarn-site.xml 的模板。 需要借助给定命令将文件从 mapred-site, xml.template 复制到 mapred-site.xml 文件

以下是在 mapred-site.xml 文件中 <configuration>, </configuration> 标记内必须添加的属性

  • yarn-site.xml:要将 yarn 配置到 Hadoop 中,我们可以使用此文件。 打开文件并在该文件的 <configuration>, </configuration> 标记之间添加以下给出的属性。

验证 Hadoop 安装

请按照以下步骤验证 Hadoop 安装。

步骤 1:可以使用命令 "hdfs namenode - format" 设置 namenode,如下所示

下面给出了上述命令的结果

步骤 2:可以通过启动 Hadoop 文件系统,使用以下命令完成 Hadoop dfs 验证。

输出

10/24/14 21:37:56 
Starting namenodes on [localhost] 
localhost: starting namenode, logging to /home/hadoop/hadoop-2.6.4/logs/hadoop-
hadoop-namenode-localhost.out 
localhost: starting datanode, logging to /home/hadoop/hadoop-2.6.4/logs/hadoop-
hadoop-datanode-localhost.out 
Starting secondary namenodes [0.0.0.0]

步骤 3:之后,通过启动 yarn 守护程序,使用以下命令验证 Yarn 脚本。

输出

starting yarn daemons 
starting resourcemanager, logging to /home/hadoop/hadoop-2.6.4/logs/yarn-
hadoop-resourcemanager-localhost.out 
localhost: starting nodemanager, logging to /home/hadoop/hadoop-
2.6.4/logs/yarn-Hadoop-node manager-localhost.out

步骤 4:现在,我们必须通过默认端口号 50070 在浏览器上访问 Hadoop。 使用下面给出的 URL 在浏览器上获取 Hadoop 服务。 https://: 50070/

在 Hadoop 上安装 Solr

以下步骤可帮助您在 Hadoop 上安装 Solr。

步骤 1:打开浏览器并通过单击此链接转到 Apache Solr 的主页 https://lucene.apache.org/solr/

Apache Solr on Hadoop

步骤 2:在下一个网页上,单击下载按钮。 您现在被重定向到可以在其中看到 Apache Solr 的各种镜像的页面。

Apache Solr on Hadoop

步骤 3:选择一个适合您操作系统的镜像并单击它。 它会将您发送到可以下载二进制文件和 Apache solr 的另一个来源的网页。

步骤 4:现在,solr 文件将下载到您的系统的“下载”文件夹中。

步骤 5:在 Hadoop 主目录中创建一个文件夹并将其命名为 Solr,并将解压文件夹的所有文件移动到其中,如下所示

验证 Hadoop

步骤 1:转到 Solr 主目录的 bin 文件夹并使用 version 命令验证安装,如下所示

设置 Hadoop 的主目录和路径

步骤 1:使用下面给出的命令打开 .bashrc 文件。

步骤 2:之后,为 Apache Solr 设置主目录和路径目录,如下所示

步骤 3:单击开始菜单并打开命令提示符并执行给定的命令。

步骤 4:现在,您可以从任何目录执行 Solr 命令。


下一个主题Apache Solr 架构