谁有空闲时间,付费找人写个小偷程序 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
tangknox1
V2EX    PHP

谁有空闲时间,付费找人写个小偷程序

  •  
  •   tangknox1 2022-06-21 14:01:58 +08:00 6502 次点击
    这是一个创建于 1207 天前的主题,其中的信息可能已经有所发展或是发生改变。
    小预算,穷丝一个,嫌弃钱少的也别骂我。

    通过 https://www.qwant.com/?locale=zh_CN&q=%E7%BA%A2%E7%83%A7%E8%82%89%E6%80%8E%E4%B9%88%E5%8%9A%E5%A5%BD%E5%90%83&t=web

    抓数据回来,用新的规则清晰数据,然后用自己的模板风格加载生成缓存文件后输出。

    没啥负责的技术含量,估计整个程序就 2 到 3 个文件。

    github 上貌似有 qwant 的 API 接口,不过看了下 检索页面的右键源代码,也有 json 数据输出。

    我小白,也不懂啥技术,估计是 curl 取数据,正则啥的过滤和清洗,最后组合下数据生成缓存页面,前台输出。

    能做的给我发个邮件联系,邮件实时能收到并回复你。

    联系邮件:

    tangknox # gmail.com
    是 gmail 的邮箱
    发的时候把 # 号 和前后空格删掉,# 改成 @

    最后来个长期有空余时间接活的,都是一些小需求开发较多。
    第 1 条附言    2022-06-22 10:34:51 +08:00
    已找到人接,谢谢各位帮助
    48 条回复    2022-06-24 11:53:35 +08:00
    xwayway
        1
    xwayway  
       2022-06-21 14:11:43 +08:00   13
    [估计没啥技术含量] 这个话说得我好怕……这是搜索引擎的数据,拿回来还要清洗后再吐出去,清洗规则估计要做成,我想怎么配置就怎么配置。然后还要自己的模板风格,有 ui 设计了吗?估计也是坑,等人跳。整个程序就 2-3 个文件,,,我也觉得百度谷歌挺简单的,就一个搜索框页面,一个搜索结果展示页面。 坐等有缘人入坑
    lshero
        2
    lshero  
       2022-06-21 14:15:34 +08:00
    突破搜索引擎的反爬虫就是技术含量啊
    本站对各种 SEO 优化的内容农场的态度还是比较负面的
    omL72EEc
        3
    omL72EEc  
       2022-06-21 14:18:14 +08:00   7
    ”我的想法挺简单的,做个淘宝京东之类的就行了“
    tangknox1
        4
    tangknox1  
    OP
       2022-06-21 14:20:16 +08:00
    @xwayway UI 风格不做都可以,就简单的 html 弄下输出数据,我自己改就行了。就一个小偷程序,我都说了没大预算,但是不等于说是几百块钱就打法了,我说成,您也不愿意对吧,所以最终价格还是要谈。至于需求,谈了你给个报价也行啊。有没有逼迫谁。哪里来的坑,如果谈好了需求和价格,完全可以去开源中国我先支付托管资金,或者先打钱给你定金也行啊。
    tangknox1
        5
    tangknox1  
    OP
       2022-06-21 14:21:14 +08:00
    @lshero 你先去 github 上搜下这个国外的搜索引擎吧,官网本身就有对外的 API 接口。免费。顶多加个在线代理功能罢了,
    lower
        6
    lower  
       2022-06-21 14:24:41 +08:00
    这网站是干啥的啊?我挂着台湾代理,还不让我访问……
    tangknox1
        7
    tangknox1  
    OP
       2022-06-21 14:26:40 +08:00
    @omL72EEc curl 取个数据回来,很高深的技术吗?至于让你上升到 做个淘宝京东?搞得好像全球就您会或者就您懂编程一样,别人都不懂,你想把简单的说多高深都成对吧。。再说了,我也没说是对技术人员或者人为 PHP 廉价,也没不尊重吧,我自己技术不行小白一个,但是也不至于一点不懂吧,何况生意都是需要谈的,你觉得没我说的那么复杂,那你给个报价,我觉得预算能满足你的报价那就找你做对吧。。没必要阴阳怪气说这些。谁跟钱有仇啊
    asLw0P981N0M0TCC
        8
    asLw0P981N0M0TCC  
       2022-06-21 14:27:42 +08:00
    不是还有分页吗
    tangknox1
        9
    tangknox1  
    OP
       2022-06-21 14:28:49 +08:00
    @qwertyzzz 不需要分页数据,只需要抓第一页那 10 条,还有右侧那个相关文章的就行了。
    rb6221
        10
    rb6221  
       2022-06-21 14:37:20 +08:00   1
    直接说你最终想做个什么产品出来,不要用不专业的术语强行解释流程。
    自己的风格是什么?需要设计吗?是否好看和成本挂钩
    新的规则是谁给?我给的话随便给你能接受吗?有标准吗?标准和钱挂钩
    输出是怎么输出?网页? app ?小程序?公众号? api ?还是直接给数据库文件?需要后台吗?需要开发者账号吗?这些都和钱挂钩
    dwlovelife
        11
    dwlovelife  
       2022-06-21 14:44:03 +08:00
    你这个不是只抓那个红烧肉的搜索页吧 什么条件搜索页都得抓吧 咱姑且都抓第一页 就这一步 抓取数据的这一步就不是一件小工作
    lshero
        12
    lshero  
       2022-06-21 14:44:35 +08:00
    @tangknox1 大部分项目说的 API 都是 Unofficial API ,开放 API 和有风控并不冲突。加代理是不是得必须是原生 IP ,机房的 IP 行不行?采集前是否需要增加代理可用性检测和代理池更换代理的需求?这些做爬虫的前置条件不解决清除肯定没人愿意直接接单的。
    tangknox1
        13
    tangknox1  
    OP
       2022-06-21 14:49:52 +08:00
    @janus77 哥,不需要 UI ,最基础的 HTML 能输出数据就行,做好了我自己改风格样式就行了,就用 PHP 写个网页,txt 存储关键词,然后 curl 去这个搜索引擎网站抓检索结果第一页的数据回来,用正则规则清洗组合后前台输出就行了。不过你看下我贴里发的那个 URL ,邮件查看源代码,有 json 数据输出

    比如,www.v2ex.com/?s=关键词
    预算我可以适当放大,不过最终看你给的价格合适不合适
    tangknox1
        14
    tangknox1  
    OP
       2022-06-21 14:50:43 +08:00
    @lshero 还是你说的话中肯,我爱听。
    asLw0P981N0M0TCC
        15
    asLw0P981N0M0TCC  
       2022-06-21 14:54:42 +08:00
    @tangknox1 想试试 但是不知道代理咋弄
    lshero
        16
    lshero  
       2022-06-21 14:59:13 +08:00
    @qwertyzzz 原生代理有卖的价格比较贵基本都是按照流量收费的。

    楼主的需求其实就是写个定时任务挂着代理把
    https://api.qwant.com/v3/search/web?locale=zh_CN&q=需要搜索的内容&count=10&offset=0&device=desktop&safesearch=1

    扒拉下来,然后选取一下合适的 Json 内容,写入他的 CMS 数据库生成静态页,然后搜索引擎里又会多一些大家感觉莫名其妙的网站了。
    ppx199
        17
    ppx199  
       2022-06-21 14:59:44 +08:00
    自己先把需求理好吧,干多少活,拿多少钱。
    再简单的活,工作量大也得加钱,活多钱少,傻子才干。
    asLw0P981N0M0TCC
        18
    asLw0P981N0M0TCC  
       2022-06-21 15:09:57 +08:00
    @lshero 还有 api 这!
    Cbdy
        19
    Cbdy  
       2022-06-21 15:10:56 +08:00
    一股坑爹的气息
    oploverliu2012
        20
    oploverliu2012  
       2022-06-21 15:13:04 +08:00
    看着好像不难,就是需求太不明确了
    ttgo
        21
    ttgo  
       2022-06-21 15:21:18 +08:00
    v 站有个传统,就是不管什么需求,回帖都得说:这是阿波罗登月啊!
    报价一般从几百到几万几十万不等。
    tangknox1
        22
    tangknox1  
    OP
       2022-06-21 15:21:18 +08:00
    @lshero 差不多,就是 PHP 脚本里设置,请求抓取几次更换一个 IP ,避免抓取请求频率太高被封我服务器 IP ,不需要对接 CMS 数据库,1 个 post 请求 php ,写好规则,一个 接收数据显示脚本文件 php ,最好生成 php 缓存文件,前台输出调用缓存文件展示就可以避免多次抓取请求,缓存文件一次性,不需要更新缓存。
    jorneyr
        23
    jorneyr  
       2022-06-21 15:23:23 +08:00
    @omL72EEc
    ”我的想法挺简单的,做个淘宝京东之类的就行了“

    你这个要求有点难了,淘宝京东那么多页面,做个百度搜索就可以了,只有一个输入框和按钮。
    Tink
        24
    Tink  
    PRO
       2022-06-21 15:27:47 +08:00
    大概多少预算
    keymao
        25
    keymao  
       2022-06-21 15:57:59 +08:00
    python scrapy 不过还是没弄明白你的需求。

    关键词是怎么设置 提前导入还是中间干涉,建议弄个需求文档理一理吧 需求大小先不说 云里雾里。
    westoy
        26
    westoy  
       2022-06-21 16:13:34 +08:00
    @tangknox1

    他说的其实是好话啊, 建议你拿 ab 对着目标网站跑一下看看会不会被封, 小偷这种上古玩意儿说白了就是 webproxy 啊, 你想想现在 webproxy 都不多见了, 小偷基本没人用是因为正经网站基本没有不限制访问频次的, 有些还会根据前端特征判断你是不是真人, 像用一些 CDN 或者 CF 顶在前面的这类都是自带功能, 所以后网站时代做垃圾站也是搞的代理池采集入库那套, 有的还会上无头浏览器模拟真人访问, 你找人写这个, 很容易就是低频测试的时候一切正常, 上线了或者隔两天就不能用了, 到时候纠纷就更大了
    ytll21
        27
    ytll21  
       2022-06-21 16:18:52 +08:00   1
    这是阿波罗登月啊!
    xwayway
        28
    xwayway  
       2022-06-21 16:27:43 +08:00
    @ttgo 因为,很多人都被这种单子坑过吧……哈哈
    shyrock
        29
    shyrock  
       2022-06-21 16:27:50 +08:00
    未经授权的爬虫是不是非法的?
    如果 OP 被抓了,是不是程序员也要被顺藤摸瓜?
    nxcdJaNnmyF9O90X
        30
    nxcdJaNnmyF9O90X  
       2022-06-21 16:28:49 +08:00
    大冤种
    CommitBug
        31
    CommitBug  
       2022-06-21 16:32:03 +08:00
    其实我觉得,你应该先说你的预算框定在什么范围,大家给你发邮件聊了半天需求,一通了解下来,预算几百块,那时间成本划不来
    或者你大致列个需求清单,大家看完心理有个价位,然后报给你,两个人都能接受,大家再继续详谈
    我看见好几个人上来就强调简单,容易,无非就是想看看能不能捡个便宜
    BeforeTooLate
        32
    BeforeTooLate  
       2022-06-21 16:52:11 +08:00
    | 我小白,也不懂啥技术。
    | 没啥负责的技术含量,估计整个程序就 2 到 3 个文件。
    1.说自己小白就行,然后直接提需求就行,别人自然会来匹配你的需求,你为啥非要来一句这个东西没啥技术含量?
    2.善意提醒小偷程序爬虫等可是违法的,跳坑的人自己把握
    em70
        33
    em70  
       2022-06-21 16:53:19 +08:00
    @janus77 #10 他才不会告诉你呢,怕你抄他创意
    Saurichthys
        34
    Saurichthys  
       2022-06-21 16:56:54 +08:00
    没有技术含量,自己写不就完事了
    nine
        35
    nine  
       2022-06-21 17:02:10 +08:00
    一万块钱我接了
    learningman
        36
    learningman  
       2022-06-21 17:08:32 +08:00 via Android
    @ttgo 因为任何不说清楚的任务,需求都可以加到阿波罗登月
    king888
        37
    king888  
       2022-06-21 17:13:03 +08:00   3
    没有技术含量,自己写不就完事了 +1
    king888
        38
    king888  
       2022-06-21 17:17:19 +08:00
    一般与这种想法的客户合作,不会存在长久合作关系的,说不定收尾结果都不会很好。因为想法完全不对等,一边觉得没技术含量,一边觉得我这就技术活。突然觉得写代码好卑微...
    dilu
        39
    dilu  
       2022-06-21 17:38:39 +08:00
    说实话,没有反讽的意思。

    PHP 很简单,你这个抓数据也不复杂,几个正则调一下就行了。

    所以你完全可以自己写的,没必要找人做。

    甚至很多浏览器都有抓数据的插件,很方便的。
    westoy
        40
    westoy  
       2022-06-21 17:40:07 +08:00
    @king888

    有一说一, 还是码农圈比较卷的问题, 正经制造业哪有做小单定制业务的...........
    spicecch
        41
    spicecch  
       2022-06-21 17:42:00 +08:00
    做什么才有技术含量呢
    ezreal
        42
    ezreal  
       2022-06-21 17:46:05 +08:00
    确实简单,就是不敢写爬虫
    timeromantic
        43
    timeromantic  
       2022-06-21 18:49:55 +08:00
    细品 OP 的发言:

    1 ,“我小白,也不懂啥技术,估计是 curl 取数据,正则啥的过滤和清洗,最后组合下数据生成缓存页面,前台输出”

    2 ,“curl 取个数据回来,很高深的技术吗?至于让你上升到 做个淘宝京东?搞得好像全球就您会或者就您懂编程一样,别人都不懂,你想把简单的说多高深都成对吧”

    既然是小白,又说没啥技术含量?这不前后矛盾吗?

    没有技术含量,自己写不就完事了 +1
    tangknox1
        44
    tangknox1  
    OP
       2022-06-21 19:52:23 +08:00
    @westoy 确实是这样,因为我小白,所以误解了他,感谢你的解释。
    tangknox1
        45
    tangknox1  
    OP
       2022-06-21 19:54:55 +08:00
    @BeforeTooLate 谢谢,我知道自己的帖子有很多语病,不过这个站是国外的搜索引擎,应该没事儿。
    tangknox1
        46
    tangknox1  
    OP
       2022-06-21 20:00:47 +08:00
    @timeromantic 我真不是做后端的,PHP 就知道个 echo ,我是很早以前花了不到 2000 块钱找人写过一个搜狗图片小偷,就 1 个 php 脚本文件,那个 PHP 技术一上午就弄好发我了。而且我这两天也自己找教程试着做了下,但是卡在生成缓存然后前台怎么调用 php 缓存文件展示,我不会弄这个了,所以也算是知道一点点,这不想着应该不难吧。但是得找专业 PHP 人员搞不是吗。
    MrWhite
        47
    MrWhite  
       2022-06-22 20:19:13 +08:00
    @king888 对头。而且提醒跳坑的人一定要先要一部分押金然后需求谈清楚。以前就遇到这种的 也动不动就说没多少,又不难,不就是一个按钮吗? 最后又加功能,然后还扯皮说本来就是包含在内的。。
    a570295535
        48
    a570295535  
       2022-06-24 11:53:35 +08:00 via Android
    淘宝 50 块起步,最多 200 块就能做好。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     910 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 22:16 PVG 06:16 LAX 15:16 JFK 18:16
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86