通过 IBM Power Systems 上运行的 SAP HANA Spark Controller 集成 SAP HANA 与 Hortonworks Data Platform

在 IBM Power 服务器上结合使用 SAP HANA 的内存处理能力和 Hadoop 的大数据处理能力

结合 SAP HANA 和 Hortonworks Data Platform (HDP) 的优势来处理数据。使用了一个名为 SAP HANA Spark Controller 的新软件组件来集成 HANA 与 HDP，使 HANA 能访问和处理存储在 HDP Hadoop 集群中的数据。整个处理环境在采用 Linux®且基于 IBM® POWER8® 处理器的服务器上运行。文中将详细介绍测试环境和两种部署模型。安装和配置说明可帮助您设置类似的环境。最后，使用 SAP HANA Studio 测试数据流，验证该环境工作正常。

SAP HANA Spark Controller

SAP HANA Spark Controller 支持 SAP HANA 对作为 Hadoop 分布式文件系统 (HDFS) 数据文件存储在 Hadoop 集群上的数据进行内存访问。Spark Controller 允许 SAP HANA 通过 SQL 接口访问 Hadoop 数据。Spark Controller 主要用于 Spark SQL 并连接到一个现有的 Hive Metastore。参考 SAP HANA Spark Controller 文档了解更多细节。

Spark Controller 执行以下功能：

方便查询的执行，使 SAP HANA 能获取压缩列格式的数据
支持特定于 SAP HANA 的查询优化和安全通信
促进 SAP HANA 和执行器节点之间的数据传输

目标

验证和测试的关键目标包括：

确认能够配置 SAP HANA 来连接到在 IBM Power Systems™上的 Red Hat Enterprise Linux (RHEL) 上运行的 HDP。
确认 SAP HANA 能连接到 HDP 集群上的 Hive 表（包含在 Hadoop 中）并以虚表形式访问它们。
使用 SAP HANA Studio 作为客户端，访问和可视化来自 HDP 的数据。
使用基于纵向扩展和横向扩展 IBM POWER8 处理器的服务器来测试两种部署模型。

测试环境

对于测试环境，我们使用了以下软件版本和硬件配置。

SAP HANA 2.0

一个基于 IBM POWER8 处理器的服务器上的虚拟机 [或逻辑分区 (LPAR)]，包含 SUSE Linux Enterprise Server 12 (ppc64le) 版本 = 12，补丁级别 = 1
16 个虚拟处理器、240 GB 内存、500 GB 磁盘空间

SAP HANA Spark Controller 2.1.0-1

它安装在 HDP 集群上。
它只能安装在多节点集群中的一个节点上。它应能访问 Hive Metastore 节点。
对于本测试，它安装在运行 Apache Ambari、Node Manager 和 YARN Resource Manager 的节点上。

HDP 2.6

使用 HDP 2.6 设置一个 4 节点集群。
每个节点都是一个基于 IBM POWER8 处理器的服务器上采用 RHEL 7.2 的虚拟机（或 LPAR）
每个节点都有 4 个虚拟处理器 (vCPU)、32 GB 内存、100 GB 磁盘空间

SAP HANA Studio（客户端）

V2.3.5
Microsoft®Windows® 7 PC

部署

测试环境使用了两种独立的部署模型。每个部署环境中都使用了相同的软件和配置；而且测试结果是相同的。

SAP HANA 和 HDP 软件都在自己的独立 IBM POWER8 横向扩展服务器上运行（如图 1 所示）。
SAP HANA 和 HDP 软件都在相同企业 POWER8 纵向扩展服务器上它们自己的独立虚拟机中运行（如图 2 所示）。

图 1 和图 2 描述了用于验证 IBM Power®服务器上运行的 SAP HANA 和 HDP 的两种部署和整体架构。在一个虚拟机 [或者 Power Systems 术语中的逻辑分区 (LPAR)] 上安装和配置 SAS HANA，该虚拟机在基于 IBM POWER8 处理器的服务器上运行 IBM SUSE Linux V12.1 操作系统。在另一个基于 IBM POWER8 处理器的服务器上的 4 个 RHEL 7.2 虚拟机上，安装并配置一个 4 节点 HDP 集群。

在运行 Ambari、Node Manager 和 YARN Resource Manager 的主节点上安装 SAP HANA Spark Controller。但是，Spark Controller 可以安装在一个多节点 HDP 集群中的任意一节点上。它应能访问该 Hive Metastore 节点。

请注意，SAP HANA 的安装和配置对 HDP 集群中的节点数量是透明的。

解决方案

SAP HANA解决方案

通过 IBM Power Systems 上运行的 SAP HANA Spark Controller 集成 SAP HANA 与 Hortonworks Data Platform

SAP HANA Spark Controller

目标

测试环境

部署

图 1. 使用 SAP HANA Spark Controller 与 Hortonworks HDP 集成的 SAP HANA 的横向扩展部署模型

图 2. 使用 SAP HANA Spark Controller 与 Hortonworks HDP 集成的 SAP HANA 的纵向扩展部署模型