从0到1搭建DeltaLake大数据平台

BI, AI, 大数据学习 / 2024-10-21 / 原文

1. 下载VMWare，安装CentOS9虚拟机

2. 配置用户，创建目录

2.1. 以管理员身份登录，创建Spark用户给Spark使用

sudo adduser sparkuser

2.2. 修改新用户密码（123456）

sudo passwd sparkuser

2.3. 给新用户Sparkuser Sudo权限

　　切换到Root: su -

　　给sparkuser权限： sparkuser ALL=(ALL) NOPASSWD:ALL

　　退出保存： :qw

2.4. 以新建的sparkuser用户登录，创建Spark目录

sudo mkdir /opt/spark

2.5. 修改spark目录owner为sparkuser

sudo chown -R sparkuser:sparkuser /opt/spark

3. 下载spark包，上传到虚拟机，解压到spark目录

sudo tar -xvzf spark-3.5.3-bin-hadoop3.tgz -C /opt/spark --strip-components=1

sudo chown -R sparkuser:sparkuser /opt/spark

(The --strip-components=1 option removes the top-level directory from the extracted files, so they go directly into /opt/spark.)

4. 设置环境变量

Add Spark to your PATH by editing the .bashrc or .bash_profile of the Spark user.

echo "export SPARK_HOME=/opt/spark" >> /home/sparkuser/.bashrc

echo "export PATH=\$PATH:\$SPARK_HOME/bin" >> /home/sparkuser/.bashrc

source /home/sparkuser/.bashrc

5. JAVA Setup

　　安装Java

sudo yum install java-11-openjdk-devel

　　查看版本

java -version

　　查看路径

readlink -f $(which java)

　　设置环境变量

echo "export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-11.0.20.1.1-2.el9.x86_64" >> /home/sparkuser/.bashrc

echo "export PATH=$JAVA_HOME/bin:$PATH" >> /home/sparkuser/.bashrc

source /home/sparkuser/.bashrc

6. 启动Spark

spark-shell

7. 启动spark deltalake

bin/spark-shell --packages io.delta:delta-spark_2.12:3.2.0 \
--conf "spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension" \
--conf "spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog"

8. 测试deltalake

val data = spark.range(0, 5)
data.write.format("delta").save("/tmp/delta-table")

从0到1搭建DeltaLake大数据平台更多相关文章

今日报告-66

设置Windows10暂停更新3000天

AQS公平锁的流程

AMD锐龙7 7800X3D网游专项测试：竟比i9-13900KS强了15%

常用总线技术基本参数对比

探索图像数据中的隐藏信息：语义实体识别和关系抽取的奇妙之旅

设置Chrome浏览器自动升级

JavaScript – 小技巧 Tips

postgresql在插入数据后怎么获取自增id

EF Core 的基本使用

error: failed to push some refs to 'https://github.com/*******/********.github.io.git'

欧拉降幂

编程语言能力对比

基于机器视觉的小车轨迹控制软件界面展示

随机推荐

AJAX & AXIOS-2024/11/1

验证码处理在自动化测试中的应用

一些学科笑话

NOIP2024模拟赛20 & 11.1 小记

20241101 数据结构与算法期中机试收获

Java，启动！

什么是IT技术

即将到来！

2024/11/1日日志关于JavaScript简介&引入方式以及基础语法的学习

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

原型模式的C++实现

python bytecode解析

09-XSS键盘监听、cookie窃取&文件上传绕过

ubuntu 24.04 部署 mysql 8.4.3 LTS

国标GB28181公网平台LiteGBS国标GB28181视频平台建筑工地无线视频联网监控系统方案

从0到1搭建DeltaLake大数据平台

从0到1搭建DeltaLake大数据平台更多相关文章

随机推荐

热门话题