数据分析参考堆栈

本指南说明了如何使用 DARS,以及如何选择性地构建您自己的 DARS 容器映像。

任何支持 Docker* 容器的系统都可与 DARS 一起使用。本指南中的这些步骤使用 Clear Linux* OS 作为主机系统。

数据分析参考堆栈版本

数据分析参考堆栈 (DARS) 为开发人员和企业提供了一个简单、高度优化的软件堆栈来存储和处理大量数据。更多详细信息请参阅 DARS architecture and performance benchmarks

数据分析参考堆栈提供了两个预构建的 Docker 映像,可在 Docker Hub 获得:

我们建议您在 DARS repository 中找到 README,查看每个映像的最新组件版本。由于 Clear Linux OS 是滚动发行的,基于 Clear Linux OS 的容器中的软件包版本号可能不是 Clear Linux OS 最新发布的版本号。

注解

数据分析参考堆栈是一项集体成果,成果中的每一个软件都有自己的许可证。有关数据分析参考堆栈的许可和使用的更多详细信息,请参阅 DARS Terms of Use

使用 Docker 映像

  1. 要立即开始使用最新的稳定版 DARS 映像,请直接从 Docker Hub 提取。在本教程中,我们将使用 Dars with MKL 版本堆栈。

  2. 下载完映像后,您可以使用以下命令运行它:

    docker run -it --ulimit nofile=1000000:1000000 --name mkl <name of image>
    

    此命令将启动映像,并进入容器内的 bash shell 中。您将看到类似以下内容的输出:

    root@fd5155b89857 /root # spark-shell
    spark-shell
    Config directory: /usr/share/defaults/spark/
    Welcome to
      ____              __
     / __/__  ___ _____/ /__
     _\ \/ _ \/ _ `/ __/  '_/
    /___/ .__/\_,_/_/ /_/\_\   version 2.4.0
       /_/
    
    Using Scala version 2.12.7 (OpenJDK 64-Bit Server VM, Java 1.8.0-internal)
    Type in expressions to have them evaluated.
    Type :help for more information.
    
    scala>
    

    --ulimit nofile 参数是当前必需的参数,以便增加 spark 引擎在某一时点打开的打开文件的数量。

构建 DARS 映像

如果选择构建您自己的 DARS 容器映像,您可以根据需要对它们进行自定义。将提供的 Dockerfile 用作基准。

要使用 Clear Linux OS 构建映像,请从安装了 containers-basic-dev 捆绑包的 Clear Linux OS 开发平台开始。使用 swupd 了解有关捆绑包和安装捆绑包的更多信息。

  1. 克隆 Data Analytics Reference Stack GitHub* 存储库。

    git clone https://github.com/clearlinux/dockerfiles/tree/master/stacks/dars -b master
    
  2. 在 DARS 目录中,运行 make 来构建 OpenBLAS 和 MKL 映像。

    make
    

    然后运行 make baseline 构建基准 CentOS 映像。根据系统的不同,可能需要一段时间才能完成构建。完成后,使用 Docker 检查生成的映像。

    make baseline
    
  3. 完成后,使用 Docker 检查生成的映像

    docker images | grep dars
    
  4. 您可以使用任何一个生成的映像来启动功能齐全的容器。如果需要自定义容器,您可以编辑所提供的 Dockerfile