认识网页结构和爬虫

ortas / 2023-05-06 / 原文

网页一般由三部分组成，分别是 HTML（超文本标记语言）、CSS（层叠样式表）和 JScript（活动脚本语言）

HTML

HTML 是整个网页的结构，相当于整个网站的框架。带“＜”、“＞”符号的都是属于 HTML 的标签，并且标签都是成对出现的。

常见的标签如下：

<html>..</html> 表示标记中间的元素是网页
<body>..</body> 表示用户可见的内容
<div>..</div> 表示框架
<p>..</p> 表示段落
<li>..</li>表示列表
<img>..</img>表示图片
<h1>..</h1>表示标题
>..</a>表示超链接

CSS

CSS 表示样式，＜style type=＂text/css＂＞表示下面引用一个 CSS，在 CSS 中定义了外观。

JScript

JScript表示功能。交互的内容和各种特效都在 JScript 中，JScript 描述了网站中的各种功能。

爬虫的合法性

robots.txt

几乎每一个网站都有一个名为 robots.txt 的文档，当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档，就要判断是否有禁止访客获取的数据。

想要查看robots.txt，在浏览器中访问 https://想要访问的网址/robots.txt即可。

User-Agent:*
Disallow:/

上文意思是除前面代码指定的爬虫外，不允许其他爬虫爬取任何数据。

认识网页结构和爬虫更多相关文章

ansible ping远程主机debian11报错

RK3568开发板Openwrt文件系统构建

浅析Dockerhub API：如何优雅地从dockerhub偷rootfs镜像

C# 通过注册表、API两种方式获取显示器的分辨率尺寸

Java-中文官方教程-2022-版-二-

JavaTutorialNetwork-中文系列教程-一-

随机推荐

yolo --- 核心思想

【游记】CCPC 济南 2024 游记

AJAX & AXIOS-2024/11/1

验证码处理在自动化测试中的应用

一些学科笑话

NOIP2024模拟赛20 & 11.1 小记

20241101 数据结构与算法期中机试收获

Java，启动！

什么是IT技术

即将到来！

2024/11/1日日志关于JavaScript简介&引入方式以及基础语法的学习

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

原型模式的C++实现

python bytecode解析

09-XSS键盘监听、cookie窃取&文件上传绕过

ubuntu 24.04 部署 mysql 8.4.3 LTS

国标GB28181公网平台LiteGBS国标GB28181视频平台建筑工地无线视频联网监控系统方案

imes完工下线

android 13 更改手机信号调整

认识网页结构和爬虫

爬虫的合法性

认识网页结构和爬虫更多相关文章

随机推荐

热门话题