数据分析参考堆栈¶
本指南说明了如何使用 DARS,以及如何选择性地构建您自己的 DARS 容器映像。
任何支持 Docker* 容器的系统都可与 DARS 一起使用。本指南中的这些步骤使用 Clear Linux* OS 作为主机系统。
数据分析参考堆栈版本¶
数据分析参考堆栈 (DARS) 为开发人员和企业提供了一个简单、高度优化的软件堆栈来存储和处理大量数据。更多详细信息请参阅 DARS architecture and performance benchmarks。
数据分析参考堆栈提供了两个预构建的 Docker 映像,可在 Docker Hub 获得:
- 一个从 Clear Linux OS 派生且针对 OpenBLAS 优化的 DARS with OpenBlas 堆栈
- 一个从 Clear Linux OS 派生且针对 MKL 优化的 DARS with MKL 堆栈
我们建议您在 DARS repository 中找到 README
,查看每个映像的最新组件版本。由于 Clear Linux OS 是滚动发行的,基于 Clear Linux OS 的容器中的软件包版本号可能不是 Clear Linux OS 最新发布的版本号。
注解
数据分析参考堆栈是一项集体成果,成果中的每一个软件都有自己的许可证。有关数据分析参考堆栈的许可和使用的更多详细信息,请参阅 DARS Terms of Use。
使用 Docker 映像¶
要立即开始使用最新的稳定版 DARS 映像,请直接从 Docker Hub 提取。在本教程中,我们将使用 Dars with MKL 版本堆栈。
下载完映像后,您可以使用以下命令运行它:
docker run -it --ulimit nofile=1000000:1000000 --name mkl <name of image>
此命令将启动映像,并进入容器内的 bash shell 中。您将看到类似以下内容的输出:
root@fd5155b89857 /root # spark-shell spark-shell Config directory: /usr/share/defaults/spark/ Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.4.0 /_/ Using Scala version 2.12.7 (OpenJDK 64-Bit Server VM, Java 1.8.0-internal) Type in expressions to have them evaluated. Type :help for more information. scala>
--ulimit nofile 参数是当前必需的参数,以便增加 spark 引擎在某一时点打开的打开文件的数量。
构建 DARS 映像¶
如果选择构建您自己的 DARS 容器映像,您可以根据需要对它们进行自定义。将提供的 Dockerfile 用作基准。
要使用 Clear Linux OS 构建映像,请从安装了 containers-basic-dev 捆绑包的 Clear Linux OS 开发平台开始。使用 swupd 了解有关捆绑包和安装捆绑包的更多信息。
克隆 Data Analytics Reference Stack GitHub* 存储库。
git clone https://github.com/clearlinux/dockerfiles/tree/master/stacks/dars -b master
在 DARS 目录中,运行 make 来构建 OpenBLAS 和 MKL 映像。
make
然后运行 make baseline 构建基准 CentOS 映像。根据系统的不同,可能需要一段时间才能完成构建。完成后,使用 Docker 检查生成的映像。
make baseline
完成后,使用 Docker 检查生成的映像
docker images | grep dars
您可以使用任何一个生成的映像来启动功能齐全的容器。如果需要自定义容器,您可以编辑所提供的
Dockerfile
。