Apache Solr on Hadoop

17 Mar 2025 | 5 分钟阅读

我们可以将 Solr 与 Hadoop 一起使用。 Hadoop 通常处理大量数据，并帮助我们从如此庞大的数据源中找到所需的信息。 solr 不使用 Hadoop MapReduce 来处理数据。相反，它仅使用 HDFS 文件系统进行索引和事务日志文件存储。

下载并安装 Hadoop

请按照以下步骤在您的 windows 系统上下载并安装 Hadoop。

步骤 1：转到 Hadoop 的主页。点击链接 - www.hadoo.apache.org/ 以重定向到 Hadoop 主页。

步骤 2：在 Hadoop 主页上，单击左侧菜单窗格中的 Releases。此选项会将您重定向到 Apache Hadoop Release 页面，其中包含 Hadoop 各个版本的源文件和二进制文件的可下载镜像链接，如下图所示。

步骤 3：现在，从链接列表中，选择最新且受支持的 Hadoop 版本，然后单击其二进制链接。这将让您进入包含 Hadoop 二进制文件镜像的网页。

步骤 4：单击其中一个镜像以下载 Hadoop。

在 Linux 中使用命令提示符下载 Hadoop

步骤 1：启动您的 Linux 操作系统并使用超级用户登录打开 Linux 终端。

$ su 
password:

步骤 2：打开您需要安装 Hadoop 的目录，并使用您之前复制的链接将文件保存在该目录中，如给定代码所示。

# cd /usr/local/Hadoop
# wget http://redrockdigimark.com/apachemirror/hadoop/common/hadoop-
2.6.4/hadoop-2.6.4.tar.gz

步骤 3：使用以下命令提取下载的文件。

# tar zxvf hadoop-2.6.4.tar.gz  
# mkdir hadoop 
# mv hadoop-2.6.4/* to hadoop/ 
# exit

安装 Hadoop

要以伪分布式模式安装 Hadoop，请按照以下步骤操作

步骤 1：通过使用以下给定命令将 Hadoop 环境变量设置到 ~/.bashrc 文件中来设置 Hadoop。

export HADOOP_HOME = /usr/local/hadoop export
HADOOP_MAPRED_HOME = $HADOOP_HOME export
HADOOP_COMMON_HOME = $HADOOP_HOME export 
HADOOP_HDFS_HOME = $HADOOP_HOME export 
YARN_HOME = $HADOOP_HOME 
export HADOOP_COMMON_LIB_NATIVE_DIR = $HADOOP_HOME/lib/native 
export PATH = $PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin 
export HADOOP_INSTALL = $HADOOP_HOME

步骤 2：您必须将所有更改应用于当前运行的系统。

步骤 3：配置 Hadoop - 我们可以配置所有 Hadoop 配置文件，位置在 "$HADOOP_HOME/etc/Hadoop"。您必须根据 Hadoop 基础架构在这些配置文件中进行更改。

步骤 4：重置 Hadoop-env.sh 中的 Java 环境变量，以便用 Java 开发 Hadoop 程序。可以通过将 JAVA_HOME 数据更改为计算机上 Java 路径的位置来完成此操作。

以下是我们配置 Hadoop 需要编辑的文件列表

core-site.xml：它包含诸如文件系统分配的端口号、Hadoop 实例、存储数据的内存限制以及读/写缓冲区大小等信息。以下是打开 core-site.xml 后 <configuration>,</configuration> 标记内的属性。

<configuration> 
   <property>     
      <name>fs.default.name</name>     
      <value>hdfs://:9000</value>   
   </property> 
</configuration>

hdfs-site.xml：它包含诸如复制数据的值、数据节点路径和本地文件系统的 namenode 路径等信息。它表示您要保存 Hadoop 基础架构的位置。例如

dfs.replication (data replication value) = 1  

(In the below-given path /Hadoop/ is the user name. 
had infra/hdfs/namenode is the directory created by the hdfs system.) 
namenode path = //home/hadoop/hadinfra/hdfs/nodename  

(hadoopinfra/hdfs/data node is the directory created by the hdfs file system.) 
datanode path = //home/hadoop/hadoopinfra/hdfs/datanode

打开文件后，在 <configuration>, </configuration> 标记内添加以下属性。

<configuration> 
   <property>     
      <name>dfs.replication</name>     
      <value>1</value>   
   </property>  
   
   <property>     
      <name>dfs.name.dir</name>     
      <value>file:///home/hadoop/hadoopinfra/hdfs/namenode</value>   
   </property>  
   
   <property>     
      <name>dfs.data.dir</name>     
      <value>file:///home/hadoop/hadoopinfra/hdfs/datanode</value>   
   </property> 
</configuration>

mapred-site.xml：它可以用于指定我们使用的 MapReduce 框架。 Hadoop 默认包含 yarn-site.xml 的模板。需要借助给定命令将文件从 mapred-site, xml.template 复制到 mapred-site.xml 文件

以下是在 mapred-site.xml 文件中 <configuration>, </configuration> 标记内必须添加的属性

<configuration> 
   <property>     
      <name>mapreduce.framework.name</name>     
      <value>yarn</value>   
   </property> 
</configuration>

yarn-site.xml：要将 yarn 配置到 Hadoop 中，我们可以使用此文件。打开文件并在该文件的 <configuration>, </configuration> 标记之间添加以下给出的属性。

<configuration> 
   <property>     
      <name>yarn.nodemanager.aux-services</name>     
      <value>mapreduce_shuffle</value>   
   </property> 
</configuration>

验证 Hadoop 安装

请按照以下步骤验证 Hadoop 安装。

步骤 1：可以使用命令 "hdfs namenode - format" 设置 namenode，如下所示

$ cd ~ 
$ hdfs namenode -format

下面给出了上述命令的结果

10/24/14 21:30:55 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************ 
STARTUP_MSG: Starting NameNode 
STARTUP_MSG:   host = localhost/192.168.1.11 
STARTUP_MSG:   args = [-format] STARTUP_MSG:   version = 2.6.4 
... 
... 
10/24/14 21:30:56 INFO common.Storage: Storage directory 
/home/hadoop/hadoopinfra/hdfs/namenode has been successfully formatted. 
10/24/14 21:30:56 INFO namenode.NNStorageRetentionManager: Going to retain 1 
images with txid >= 0 
10/24/14 21:30:56 INFO util.ExitUtil: Exiting with status 0 
10/24/14 21:30:56 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************ 
SHUTDOWN_MSG: Shutting down NameNode at localhost/192.168.1.11 
************************************************************/

步骤 2：可以通过启动 Hadoop 文件系统，使用以下命令完成 Hadoop dfs 验证。

输出

10/24/14 21:37:56 
Starting namenodes on [localhost] 
localhost: starting namenode, logging to /home/hadoop/hadoop-2.6.4/logs/hadoop-
hadoop-namenode-localhost.out 
localhost: starting datanode, logging to /home/hadoop/hadoop-2.6.4/logs/hadoop-
hadoop-datanode-localhost.out 
Starting secondary namenodes [0.0.0.0]

步骤 3：之后，通过启动 yarn 守护程序，使用以下命令验证 Yarn 脚本。

输出

starting yarn daemons 
starting resourcemanager, logging to /home/hadoop/hadoop-2.6.4/logs/yarn-
hadoop-resourcemanager-localhost.out 
localhost: starting nodemanager, logging to /home/hadoop/hadoop-
2.6.4/logs/yarn-Hadoop-node manager-localhost.out

步骤 4：现在，我们必须通过默认端口号 50070 在浏览器上访问 Hadoop。使用下面给出的 URL 在浏览器上获取 Hadoop 服务。 https://: 50070/

在 Hadoop 上安装 Solr

以下步骤可帮助您在 Hadoop 上安装 Solr。

步骤 1：打开浏览器并通过单击此链接转到 Apache Solr 的主页 https://lucene.apache.org/solr/

步骤 2：在下一个网页上，单击下载按钮。您现在被重定向到可以在其中看到 Apache Solr 的各种镜像的页面。

步骤 3：选择一个适合您操作系统的镜像并单击它。它会将您发送到可以下载二进制文件和 Apache solr 的另一个来源的网页。

步骤 4：现在，solr 文件将下载到您的系统的“下载”文件夹中。

步骤 5：在 Hadoop 主目录中创建一个文件夹并将其命名为 Solr，并将解压文件夹的所有文件移动到其中，如下所示

$ mkdir Solr 
$ cd Downloads 
$ mv Solr-6.2.0 /home/Hadoop/

验证 Hadoop

步骤 1：转到 Solr 主目录的 bin 文件夹并使用 version 命令验证安装，如下所示

$ cd bin/ 
$ ./Solr version 
6.2.0

设置 Hadoop 的主目录和路径

步骤 1：使用下面给出的命令打开 .bashrc 文件。

步骤 2：之后，为 Apache Solr 设置主目录和路径目录，如下所示

export SOLR_HOME = /home/Hadoop/Solr  
export PATH = $PATH:/$SOLR_HOME/bin/

步骤 3：单击开始菜单并打开命令提示符并执行给定的命令。

步骤 4：现在，您可以从任何目录执行 Solr 命令。

下一个主题Apache Solr 架构

Apache Solr on Hadoop

下载并安装 Hadoop

在 Linux 中使用命令提示符下载 Hadoop

安装 Hadoop

验证 Hadoop 安装

在 Hadoop 上安装 Solr

验证 Hadoop

设置 Hadoop 的主目录和路径

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Solr 教程

Apache Solr on Hadoop

下载并安装 Hadoop

在 Linux 中使用命令提示符下载 Hadoop

安装 Hadoop

验证 Hadoop 安装

在 Hadoop 上安装 Solr

验证 Hadoop

设置 Hadoop 的主目录和路径

相关帖子

添加文档

入门

使用 XML 更新文档

查询数据

Apache Solr 分面

Apache Solr 架构

删除文档

安装 Apache Solr

文本分析

在 Apache Solr 中建立索引

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器