如题,以前没认真研究过反爬虫的问题,因为站点日活少,并不感觉会被攻击或其他,但是最近想到这个问题,我个人水平十分业余,问一下各位大佬有没有什么 common practice
我个人的爬虫使用经验中,主要有几类反爬措施,
其一是使用 refer,判断 clientagency 这种比较原始的方式,
其二是将页面套在 iframe 中进行懒加载
其三是类似 pixiv 最近几年的操作,登录时接入了一个某某反爬业务,前端 js 会生成一些东西,非模拟登录很难得到这些数据
对我个人而言,因为我也不是专门做爬虫的,通常反爬如果达到第三层,就会拦住我。
=====
我目前感觉可行的有效反爬办法如下(基于 spa,有权限验证,但这并不妨碍直接调用数据接口)
一是部署时限制接口访问频次,比如短期大量访问后暂时屏蔽。
二是检验 refer
三,也是我想问的,前端有没有一些好用的工具,可以实现强制用户如果想爬虫也必须使用模拟客户端?比如混淆过的 js 代码生成一些 hash 之类的。
后端又如何对其合法性进行验证呢
我个人的爬虫使用经验中,主要有几类反爬措施,
其一是使用 refer,判断 clientagency 这种比较原始的方式,
其二是将页面套在 iframe 中进行懒加载
其三是类似 pixiv 最近几年的操作,登录时接入了一个某某反爬业务,前端 js 会生成一些东西,非模拟登录很难得到这些数据
对我个人而言,因为我也不是专门做爬虫的,通常反爬如果达到第三层,就会拦住我。
=====
我目前感觉可行的有效反爬办法如下(基于 spa,有权限验证,但这并不妨碍直接调用数据接口)
一是部署时限制接口访问频次,比如短期大量访问后暂时屏蔽。
二是检验 refer
三,也是我想问的,前端有没有一些好用的工具,可以实现强制用户如果想爬虫也必须使用模拟客户端?比如混淆过的 js 代码生成一些 hash 之类的。
后端又如何对其合法性进行验证呢

