Apache Spark Introduction

介紹

Spark 最初由加州大學柏克萊分校 (UCBerkeley)的 AMP 實驗室於 2009 年開發，是開源的分散式計算系統，旨在處理大規模數據處理和分析
特點：
1. 快速性能： Spark 提供了內存計算，可以在記憶體中保留中間數據，這樣可以大大加速運算速度。相比於傳統的 MapReduce 模型，Spark 的運行速度更快。
2. 通用性： Spark 支援多種不同的工作負載，包括批處理、交互式查詢（Spark SQL）、流式處理（Spark Streaming）、機器學習（MLlib）和圖形處理（GraphX）。
3. 易用性： Spark 提供了用於 Java、Scala、Python 和 R 等多種語言的 API，使得開發人員可以使用自己熟悉的語言進行數據處理。
4. 分散式： Spark 可以在一個集群中進行分散式運算，將工作負載切分成多個任務，並在多台機器上同時執行，實現高效的分布式計算。
5. 彈性： Spark 提供了彈性的數據處理能力，能夠處理結構化和非結構化的數據，並適應多種不同的數據處理需求。

RDD，即 Resilient Distributed Dataset（具有容錯性的分布式數據集），是 Apache Spark 中用於處理大規模數據的基本數據結構。