企业数据的分析始于读取、过滤和合并来自多个数据源的文件和数据流。Spark数据处理引擎是这方面的佼佼者,可处理各种量级的数据,其传输速度比Hadoop系统快100倍。得益于SQL的支持、直观的界面和简单的多语言API,你可轻松使用Spark,而不必学习复杂的新型生态系统。《Spark实战(第2版)》将引导你创建端到端分析应用程序。在书中,你可学习基于Java的有趣示例,包括用于处理NASA卫星数据的完整数据管道。你还可查看托管在GitHub上的有关Java、Python和Scala的代码示例,并探索、修改此代码。此外,《Spark实战(第2版)》的附录为你提供速查表,帮助你安装工具和理解特定的Spark术语。

根据中华人民共和国国家版权局相关法规,本站不提供该PDF电子版书籍
您可以进入交流社群中继续寻找资料或购买正版书籍

Linux交流群

技术交流社群://gulass.cn/club

Linux书籍在线阅读://gulass.cn/chapter-00.html

本文原创地址://gulass.cn/spark-linux-one.html编辑:xiangping wu,审核员:KSJXAXOAS