- 需求:想要获取 2020 年-2023 年金融监管总局(含地方分局)所有处罚公开表
- 问题 1:看了下格式好像不完全统一,大部分是表格,也有全文本,保存为什么格式比较好,会不会比较难搞?
- 问题 2: 合理收费大概是多少

1 linvaux Oct 25, 2023 敢爬 gov ,纯属作死 |
2 WeiPong Oct 25, 2023 按年收费 |
3 Granado Oct 25, 2023 建议不收费 |
6 Endocryne OP 有机构专门做过监管处罚分析的,所以肯定都有人爬过的 https://www.pwccn.com/zh/insurance/publications/analysis-regulatory-penalties-insurance-dec2021.pdf |
7 lisxour Oct 25, 2023 |
9 wpyfawkes Oct 25, 2023 我知道的风险有两个: 1. 如果没控制好请求频率,导致网站无法访问.那就是严重破坏计算机系统罪. 2. 如果网站有漏洞,能爬到一些不能公开发布的文件.那就是非法取得国家秘密罪. 建议找个境外的老哥接单. |
11 scorpion91 Oct 25, 2023 @lisxour 中国讲这些是没用的,说你犯法就犯法 |
12 dufldylan1 Oct 25, 2023 @wpyfawkes 然后被承德的老哥们接单 |
13 evan9527 Oct 25, 2023 风险太高。 刑不可知,威不可测 |
14 lun9 Oct 25, 2023 via iPhone 那么大风险才几百块,懒得接,哈哈哈 |
15 tom8 Oct 25, 2023 爬着爬着 处罚名单里面应该就有自己的信息了 |
16 tool2d Oct 25, 2023 码农先做爬虫最好就是免费,一收费风险会直线上升。 一个没任何加密的爬虫项目顶天收 1~2k ,你也发不了财,直接变成一个潜在的背锅侠。 |
17 5dang Oct 25, 2023 via iPhone 主要是含表格,而且各地分局不一样,这个比较扯。 TB 和 XY 都有商务接单,去询个价格呗。 |
18 MajestySolor Oct 25, 2023 兄弟胆子有点大啊 |
19 lrabbit Oct 25, 2023 别在网上乱说,用个代理爬,谁知道你爬的,没啥风险,而且这种数据公开的 |
20 netnr Oct 25, 2023 via Android 爬取数据须遵规 https://www.spp.gov.cn/llyj/202202/t20220210_543998.shtml 从三个方面划定数据爬虫技术合法使用的边界: 一是合法的网络数据爬取应限于对开放数据的获取。如果网络爬虫获取非开放的数据,便涉嫌违法甚至犯罪; 二是合法使用的数据爬虫技术不应具有侵入性,可以说,爬虫的侵入性是其违法性的主要体现; 三是数据爬取应当基于正当目的,对开放数据的获取可能因不符合正当目的而具有违法性。对开放的非商业性数据的爬取应当要求符合公共利益之根本目的。对开放的商业性数据的爬取则可借鉴版权法上的合理使用原则,要求基于合理利用目的。 |
22 bluetree Oct 25, 2023 做好自己这边的风险隔离,之后就干呗,做好爬虫的保险装置,gov 流氓级别,祝你好运 |
23 netnr Oct 25, 2023 via Android 大多数是第二条,没控制好频率,搞成压力测试 |
24 thinkm Oct 25, 2023 坏消息:爬到自己了 |
25 netnr Oct 25, 2023 via Android |
26 iorilu Oct 25, 2023 关键频率一定要低 你要知道, 政府网站大多都是 N 年前随便凑得系统 根本没任何高并发能力, 可能 10 个并发就能拖垮, 到时候你就麻烦了 |
27 520discuz Oct 25, 2023 爬=攻击 等着那啥吧... |
28 potatowish Oct 25, 2023 via iPhone 很多事都是秋后算账,当时你觉得没事,事后揪住这个小辫子搞你一波 |
29 xuhuanzy Oct 25, 2023 政府小水管要是崩了必抓人 |
30 LudwigWS Oct 25, 2023 via iPhone @lisxour 时间不值钱?写这种定制需求代码要稳定运行怎么也得一天吧,不是出于学习爬虫目的真懒得写,上班的很难为了几百块写这些代码 |
31 zbwsmile Oct 25, 2023 via iPhone 可以加我微信聊 |
32 tramm Oct 26, 2023 1 分钟请求一次应该不要紧 |
33 nodejsexpress Oct 26, 2023 @lisxour 还是留给你做吧. |
34 lisxour Oct 26, 2023 @LudwigWS 可能水平问题吧,这样的网站,只抓数据的话,代码 + 调试,不超两小时。。。如果有明码 JSON ,不需要破解 JS 的情况下,这种网站我中途都不需要调试的,20-30 分钟写完代码,一次就过 |
35 @LudwigWS 这类单通常不具备完善的合同制或者压根没合同,而且从我这么久的经验来说,绝大部分人(客户)都对需求说明比较弱,很多东西说不清楚,所以需求沟通时间成本和中间各种琐碎皮毛的修改才是占用时间的大头,不是代码时间,核心代码 1/3 时间,其他沟通+修改 2/3 时间,这都常有的事。屁大点的爬虫,你以沟通等的理由说加钱吧,客户也不会接受,不加钱吧,自己也不划算。 |
36 xiamy1314 Oct 26, 2023 为了几百块。。。属实没必要。。。 |
38 SixGodHave7 Oct 26, 2023 @netnr 欲练爬虫,先学刑法 |
40 realpg PRO |
41 1018ji Oct 26, 2023 建议自学爬虫,为了这几百块爬国家网站,是多缺钱 |
42 momoe Oct 26, 2023 这个收费千儿八百都正常,关键是 gov 没几个人敢碰而已。但是看了下量不大,手工复制粘贴都完事儿了= = |
44 chenzw2 Oct 27, 2023 建议按判刑年数收费 |
47 raycool Oct 29, 2023 这个爬虫应该没啥难度 |