今天偶然逛了逛 GITHUB 发现个项目,由此发现一种爬虫的新姿势.
GITHUB 地址如下: https://github.com/thorn5918/tianyancha
追踪到另一个人的 csdn 博客,也就是我最感兴趣的东西。 地址如下: https://blog.csdn.net/ggl1438/article/details/102837903
一、天眼查 8.5 版本的 app 可以抓包
二、当测试加密值可以使用的情况下,二次利用加密值
三、利用自动化神器 Autojs 来驱动 app 点击等操作,产生新的请求,从请求中拿到加密值
以上就是思路,可是我搭建过程中发现几个事情。
1.天眼查服务器会不响应我的请求,换个 ip 就行。
2.天眼查 app 会存在进程杀不死的情况,我多开 app 造成手机卡死,于是乎想到可以利用开发者模式限制只有几个进程运行。
![]() | 1 dreamerlv3ex 2019-11-21 15:19:05 +08:00 ![]() 思路很棒,爬虫需小心 |
2 spiderGgl OP 他这思路很牛,还开放了个接口,正在跟他谈兼职的事情。 爬虫的生存空间越发狭小。 |
![]() | 3 opengps 2019-11-21 15:26:27 +08:00 via Android 爬虫要把爬虫爬死的感觉 |
5 Randall 2019-11-21 15:35:29 +08:00 聪明 |
6 springGun 2019-11-21 15:37:07 +08:00 哥们,你不会是我前同事吧?bz |
![]() | 7 Vegetable 2019-11-21 15:37:13 +08:00 和我现在做的项目思路一样的,我觉得一点也不高端,是在实在走投无路的情况下才选择的这套方案 "这签名太难搞了,还是模拟 /代理吧" 手机端是 adb shell am start shcema://path 的方式或者其他效率低一些的自动手段,客户端代理到 mitmproxy 或者 anyproxy 之类的代理服务器上,监听网络请求,盗用签名或者直接通过这种低效的方式获取数据. pc 网页的签名如果实在破不了的话,也可以折中用浏览器+外部 js(油猴 /代理注入 /selemium 执行). 这套方案的优势是工作量小,缺点就是效率太低了 |
![]() | 8 Vegetable 2019-11-21 15:41:08 +08:00 哦,我们手机还是基于 asyncio+adb 的集群呢 /狗头 |
9 spiderGgl OP |
![]() | 10 Vegetable 2019-11-21 15:47:01 +08:00 @spiderGgl 破解 app 听起来美好,但是变换加密策略的成本比破解的成本低多了,生产上的东西很担心突然不能用,这套方案虽然效率低,但是可用性的确是能得到保证. |
![]() | 11 ClericPy 2019-11-21 15:49:09 +08:00 逆向 app 拿签名虽然不太麻烦, 就是要进去坐 2 到 5 年有点费时间 |
12 moult 2019-11-21 15:49:36 +08:00 本是同根生,相煎何太急! |
13 apktool 2019-11-21 15:53:04 +08:00 爬虫现在 非正常的抓取都有可能进去,特别是破解,法务对这个都声明好几次,祝好 |
14 spiderGgl OP |
![]() | 16 ClericPy 2019-11-21 16:05:10 +08:00 @spiderGgl #14 很多东西, 民不告官不究, 我只是说前面那些提到逆向的人, 你给的这套是常规自动化加中间人的, 以前用过类似的真机上用 adb 唤起拿 token 的方式, 一个原理, 不过用的是 tasker 写出来的 app. 现在爬虫不好干, 赶紧转行溜了, 想起以前别人的那句: 爬虫难不是难在怎么抓的快, 难在怎么抓的慢... 亏我之前各种调研哪个 http 库性能高, 发现 aiohttp 有 C 加成超过很多其他的库, 然后 golang 的内置库又给我刷新三观... 溜了 |
![]() | 17 szpShang 2019-11-21 16:07:57 +08:00 1.登陆天眼查网站 2.破解滑动验证码 3.输入免费短信的手机号。 4.从免费短信网站中抓取验证码 5.登入网站 6.搜索需要的企业 7.抓取相关的信息 重复 6-7 操作 隔半个小时 8.主动退出 9.停止服务 10.重拨宽带账号切换 ip 11.启动服务 从 1 的操作重新执行 已经退出爬虫圈,怕被抓。 |
![]() | 18 murmur 2019-11-21 16:11:49 +08:00 天眼查前几天还在招爬虫工程师,为什么他就不担心被起诉 |
![]() | 20 passerbytiny 2019-11-21 16:22:09 +08:00 动机:获取别人加密(即不想让你获取)的数据。 手段:自动化程序模拟自然人操作,并且在服务器封禁 IP 后更换 IP 继续。 如果拿到的数据又没在 24 小时只能删除的话,证据够了。 |
![]() | 21 googoehl 2019-11-21 16:24:58 +08:00 真的会包吃包住的(牢底坐穿)!!!!!不要瞎搞了, <信息破坏罪> |
22 jestgossip 2019-11-21 16:30:01 +08:00 “追踪到另一个人的 csdn 博客,也就是我最感兴趣的东西” ggl1438 楼主昵称 spiderGgl 我怎么觉得这么有意思呢 |
23 spiderGgl OP @jestgossip 老哥,你这样就没得意思了 |
![]() | 24 Yogpre 2019-11-21 18:50:04 +08:00 爬虫写得好,牢饭吃到饱 |