docs: 反爬虫文章优化

2026-07-11 22:42:17 +00:00 · 2021-09-21 10:08:27 +08:00
parent 5a7e23bd05
commit cdd427824c
1 changed files with 7 additions and 1 deletions
--- a/iOS/1.56.md
+++ b/iOS/1.56.md
@@ -122,6 +122,8 @@ HTTP 1.1 版本存在大量的 Header 冗余信息，网络传输利用率低。
 - 登陆态下，单位时间内限制掉请求次数过多（等级3），则封锁该账号
 - 前端技术限制 （接下来是核心技术）

+该方案也可以覆盖 OCR 爬取场景。OCR 的前提是页面渲染完毕，页面所需业务数据需要通过接口获取。所以基于用户行为采集分析，基于日志分析用户在时间范围内的请求频次、用户行为是否正常，如果不正常，说明可能是爬虫程序，依据用户单位时间内情况恶略程度，可以采用降频、返回错误数据、封锁账号的策略。
+
 ### 1. 数据加密

 比如需要正确显示的数据为“19950220”
@@ -692,8 +694,12 @@ $ node file-Server.js
 其实经常有很多来自不同端的开发者和我聊安全问题。交流下来发现有些人可以明白设计的有点，有些人还是没有明白。这里我总结下：

 - 爬虫与反爬技术，没有终点。都是需要在衡量 ROI 的情况下， 找到符合业务、技术现状的“最佳”解决方案
+
 - 每次刷新，页面显示的数据固定，但是网络接口数据、审查元素看到的数据，都是不断变化的。且汉字字符、数字字符都不一样
- OCR 可以爬取数据，但是成本较高。同样可以利用其他策略，比如同一个浏览器 canvas 指纹的情况下，短时间多次请求某些数据，则认为是非法行为，可以延迟返回数据、返回错误数据、账号封锁等策略
+
+- OCR 可以爬取数据，但是成本较高。同样可以利用其他策略，比如同一个浏览器 canvas 指纹的情况下，短时间多次请求某些数据，则认为是非法行为，可以延迟返回数据、返回错误数据、账号封锁等策略。
+
+  OCR 的对策也有，比如根据单位时间内限制掉请求次数划分等级。OCR 的前提是页面渲染完毕，页面所需业务数据需要通过接口获取。所以基于用户行为采集分析，基于日志分析用户在时间范围内的请求频次、用户行为是否正常，如果不正常，说明可能是爬虫程序，依据用户单位时间内情况恶略程度，可以采用降频、返回错误数据、封锁账号的策略。

 爬虫工程师要么从接口爬取数据、要么观察分析页面结构找到目标数据的 xPath 获取 DOM 节点对应的数据。从这2个角度出发，当前的设计方案解决了该问题