2023.7.31-2023.8.6暑假第四周博客

Arkiya / 2023-08-05 / 原文

2023.7.31

一键启动脚本
启动：
$HADOOP_HOME/sbin/start-yarn.sh
• 从 yarn-site.xml 中读取配置，确定 ResourceManager 所在机器，并启动它
• 读取 workers 文件，确定机器，启动全部的 NodeManager
• 在当前机器启动 ProxyServer （代理服务器）
关闭
$HADOOP_HOME/sbin/stop-yarn.sh

单进程启停
除了一键启停外，也可以单独控制进程的启停。
• $HADOOP_HOME/bin/yarn ，此程序也可以用以单独控制所在机器的进程的启停
用法： yarn --daemon (start|stop) (resourcemanager|nodemanager|proxyserver)
• $HADOOP_HOME/bin/mapred ，此程序也可以用以单独控制所在机器的历史服务器的启停
用法： mapred --daemon (start|stop) historyserver

1. 一键启停脚本可用
• $HADOOP_HOME/sbin/start-yarn.sh
• $HADOOP_HOME/sbin/stop-yarn.sh
2. 独立进程启停可用
• $HADOOP_HOME/bin/yarn --daemon
控制 resourcemanager 、 nodemanager 、 proxyserver
• $HADOOP_HOME/bin/mapred --daemon
控制 historyserver

2023.8.1

今天联系了提交MapReduce任务到YARN运行

运行了统计文件单词数的应用程序，成功输出了结果，另外计算了圆周率

2023.8.2

对数据进行统计分析， SQL 是目前最为方便的编程工具。
大数据体系中充斥着非常多的统计分析场景
所以，使用 SQL 去处理数据，在大数据中也是有极大的需求
的。

MapReduce 支持程序开发（ Java 、 Python
等）
但不支持 SQL 开发

布式 SQL 计算 - Hive
Apache Hive 是一款分布式 SQL 计算的工具，其主要功能是：
• 将 SQL 语句翻译成 MapReduce 程序运行
基于 Hive 为用户提供了分布式 SQL 计算的能力
写的是 SQL 、执行的是 MapReduce

2023.8.3

如果让您设计 Hive 这款软件，要求能够实现
• 用户只编写 sql 语句
• Hive 自动将 sql 转换 MapReduce 程序并提交运行
• 处理位于 HDFS 上的结构化数据。
如何实现？

假设要执行： SELECT city, COUNT(*) FROM t_user GROUP BY city;

元数据管理
针对 SQL ： SELECT city, COUNT(*) FROM t_user GROUP BY city;
若翻译成 MapReduce 程序，有如下问题：
• 数据文件在哪里？
• 使用什么符号作为列的分隔符？
• 哪些列可以作为 city 使用？
• city 列是什么类型的数据？

元数据管理
所以，我们可以总结出来第一个点，即构建分布式 SQL 计算，需要拥有：
• 元数据管理功能，即：
• 数据位置
• 数据结构
• 等对数据进行描述
进行记录
分布式 SQL 计算
元数据管理？

我们称呼它为： SQL 解析器，期待它能做到：
• SQL 分析
• SQL 到 MapReduce 程序的转换
• 提交 MapReduce 程序运行并收集执行结果

2023.8.4

今天主要部署了一下hive

首先是安装了mysql，这里出现了一个问题，就是当我按照命令安装的时候出现了问题

mysql的网页无法访问

因此又进行了一些操作总之是安装并设置好了密码

另外要说的是 linux的操作是真的难用.....

之后就是修改了一下hadoop，需要让hadoop能够代理其他用户和网络用户

具体就是修改了core-site.xml这个文件

然后对hive进行下载和解压，这里我一开始从官网下，但是他的速度实在是太慢了

因此从清华大学的镜像网站下的

之后解压并设置了一个软连接这些操作和之前部署其他内容都是一样的

之后就是配置mysql

export HADOOP_HOME=/export/server/hadoop
export HIVE_CONF_DIR=/export/server/hive/conf
export HIVE_AUX_JARS_PATH=/export/server/hive/lib

然后对mysql进行了初始化

最后成功启动了hive

2023.8.5

今天主要是做了一下爬虫，爬取到了相关内容

2023.7.31-2023.8.6暑假第四周博客更多相关文章

Pycharm 常用快捷键

Spyder 快捷键大全

【游记】CCPC 济南 2024 游记

python bytecode解析

ansible进阶与自动化

RK3568开发板Openwrt文件系统构建

动态网络架构

机器学习入门

沨鸾的Shell小技巧

为你的手机内核开启docker支持

在Linux下优雅的调试C语言

浅析Dockerhub API：如何优雅地从dockerhub偷rootfs镜像

C# 通过注册表、API两种方式获取显示器的分辨率尺寸

2024.10.31 文件管理方案

python练习题

Kinsta-博客中文翻译-八-

JAX---Flax-深度学习教程-一-

Java-中文官方教程-2022-版-二-

JavaTutorialNetwork-中文系列教程-一-

JavaBeginnersTutorial-中文系列教程-一-

随机推荐

step7 V5.x上的SCL

yolo --- 核心思想

【游记】CCPC 济南 2024 游记

AJAX & AXIOS-2024/11/1

验证码处理在自动化测试中的应用

一些学科笑话

NOIP2024模拟赛20 & 11.1 小记

20241101 数据结构与算法期中机试收获

Java，启动！

什么是IT技术

即将到来！

2024/11/1日日志关于JavaScript简介&引入方式以及基础语法的学习

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

原型模式的C++实现

python bytecode解析

09-XSS键盘监听、cookie窃取&文件上传绕过

ubuntu 24.04 部署 mysql 8.4.3 LTS

国标GB28181公网平台LiteGBS国标GB28181视频平台建筑工地无线视频联网监控系统方案

imes完工下线

热门话题

Ethernaut Level 11: Elevator Attack and Blockchain Interaction

快速部署开源spug运维平台的Docker安装指南

驱动调试之printk的原理与使用

计算机思维模型及其应用

华为云发布代码大模型PanGu-Coder2，实现高效代码生成

Linux多硬盘数据存储和分区操作

构建高可用架构: 分层冗余与自动故障转移

LoRA：高效调参的大语言模型适应方法

《分布式系统的基本原理及互联网分层架构的本质》

Hadoop写流程解析

Java架构师的系统架构设计方法论中的规范要点

使用observeDOM解决BetterScroll插件在移动端无法滑动的问题

互联网一致性架构设计实践

高并发系统架构与水平扩展

混合应用的崛起：跨平台开发取代原生应用

穗舟网（www.seizhou.com）

本站除标明"本站原创"外所有文章版权归创作人所有，本站不承担任何法律责任和连带责任，如有冒犯请直接联系，我们将立即予以纠正并致歉。

Powered by WordPress · v1.0.0-alpha