scratch基础

缘由:顺着这次项目的机会,整理下爬虫相关的所有基础知识

一个爬虫程序,需要有以下几个模块。

一、网络接口模块【获取网络资源get post请求】

1-1、基础请求处理

精准定位元素模块【一个网页内容那么多,我们需要指定获取那些内容】

反爬虫模块【主流网站都有反爬虫机制,比如:refer相关,ip限制,请求时间判断,验证码机制】

异步请求处理模块【现在很多网页采用api接口设计方案,所有有很多ajax请求,xhr】

以上,就是对爬虫程序,模块化的简单划分,其中,最复杂最难的部分,应该是反爬虫模块。

坚持原创技术分享,您的支持将鼓励我继续创作!