有没有大佬会爬虫的,有一个需求想请教一下 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
tthem
10D

有没有大佬会爬虫的,有一个需求想请教一下

  •  
  •   tthem 2024 年 12 月 10 日 1760 次点击
    这是一个创建于 500 天前的主题,其中的信息可能已经有所发展或是发生改变。

    帮一个朋友转发:

    大家好!!!计算机纯小白,自媒体行业从业者,希冀实现以下诉求:做一个能搜集文案,并给我自动二创文案的软件,每个月搜集三十篇。 在收集文案、二创文案这个环节实现自动化。 想问问大家,小白利用 gpt 来学习制作爬虫实现这一诉求,学习成本非常高昂吗? 有能力制作这个程序的朋友也欢迎报价。

    16 条回复    2024-12-10 16:35:58 +08:00
    PbCopy111
        1
    PbCopy111  
       2024 年 12 月 10 日
    我感觉你要是连这个问题都不用大模型回答的话,可能不是学习成本的问题了,先好好上学吧。

    以下回复来自 kimi:

    您好!看起来您希望开发一个软件,用于搜集文案并自动生成二创文案,以实现自动化。对于您的问题,我提供以下建议:

    1. **学习成本**:
    - 如果您是计算机纯小白,学习制作爬虫可能需要一定的时间和努力。爬虫技术涉及到编程语言(如 Python )、网络请求处理、数据解析等知识。如果您打算自学,可以通过在线课程、教程和社区论坛逐步学习。学习成本取决于您的学习能力和投入时间。

    2. **利用 GPT**:
    - GPT ( Generative Pre-trained Transformer )是一种预训练语言模型,可以用于生成文本。对于自动生成文案,您可以考虑使用 GPT 或类似的模型。这些模型通常需要大量的数据训练,并且可能需要一定的技术知识来调整和优化。

    3. **自动化软件**:
    - 开发一个完整的自动化软件涉及到前端(用户界面)、后端(数据处理和存储)、爬虫(数据搜集)等多个部分。如果您不熟悉编程,可能需要聘请专业的开发人员来帮助您。

    4. **报价**:
    - 对于有能力制作这个程序的朋友报价,这取决于项目的复杂度、开发时间和所需的技术资源。您可以联系专业的软件开发公司或个人开发者,提供您的具体需求,以便他们能够为您提供准确的报价。

    5. **其他建议**:
    - 您可以考虑使用现有的文案生成工具或服务,这些工具可能已经集成了爬虫和文案生成功能,可以更快速地满足您的需求。

    如果您需要进一步的帮助,比如寻找学习资源、了解开发成本或者寻找开发人员,我可以为您提供更多的信息和建议。
    YJi
        2
    YJi  
       2024 年 12 月 10 日
    写个爬虫一个月爬 30 篇文案,你不如人工去复制粘贴啊。有的平台反爬还挺严重的。 (但从你发出来的信息来看,我感觉不是很难)
    YJi
        3
    YJi  
       2024 年 12 月 10 日
    @YJi 我感觉比较不好衡量的是 二创的文案质量 能不能达到你朋友满意。 数据是小事情。
    adimn
        4
    adimn  
       2024 年 12 月 10 日
    1. 搜集文案 2. 二创

    1 简单, 2 只有把这些文案 发给 gpt 让他给我答案
    tthem
        5
    tthem  
    OP
       2024 年 12 月 10 日
    @PbCopy111 他是想请人来做,我认为纯小白学习起来会遇到很多困难,未来不走技术路线的话不如直接花钱
    tthem
        6
    tthem  
    OP
       2024 年 12 月 10 日
    @YJi 有数据,就 ok 了,二创是次要
    tthem
        7
    tthem  
    OP
       2024 年 12 月 10 日
    @ma836323493 主要是 1
    adimn
        8
    adimn  
       2024 年 12 月 10 日
    @tthem #7 #7 1 不难吧, 搜集文案,看你去哪些平台搜, 我知道的小红书有现成 api , 其他平台的话最不济也能 playwright 截图 ocr 识别把
    YJi
        9
    YJi  
       2024 年 12 月 10 日
    @tthem #6 要啥平台的数据,我这里有。
    coderluan
        10
    coderluan  
       2024 年 12 月 10 日
    这事取决于你要爬的平台,有的平台反爬严格,你不光需要技术,还得有对应的资源才能爬。有的反爬简单,你简单学一下 html ,然后 F12 能打开页面找到 Dom ,然后直接发给 gpt ,让它给你用 scrapy 生成对应的爬虫就行了。
    drush
        11
    drush  
       2024 年 12 月 10 日
    洗稿就算了,还要自动化 [手动狗头
    wnpllrzodiac
        12
    wnpllrzodiac  
       2024 年 12 月 10 日
    面向监狱编程的技巧不好学习啊。真是。
    tthem
        13
    tthem  
    OP
       2024 年 12 月 10 日
    @YJi 图片挂了,大佬可以加一下我朋友 RnJhbmsxMHc=
    YJi
        14
    YJi  
       2024 年 12 月 10 日
    @tthem #13 已加莫辜负哈哈,图片是表情包
    NoOneNoBody
        15
    NoOneNoBody  
       2024 年 12 月 10 日
    你这个量(约每天一篇)根本就不是爬虫
    说到底这个每天一篇是筛选后的结果?如果目标很明确不需要人工筛选,那写个小脚本自动访问就可以了,类似自动签到的脚本;但如果目标不明确,要在一堆海量文章选 30 篇,这个才需要爬虫,但这个筛选过程就异常的难了,自动化的话需要可能上百个条件做判断,还是说筛选过程就交给 AI ?人工筛选?

    第二步将 30 篇归纳概括为最终一篇文章,这个用 api 倒不是难事,如果想本地实现,那花费就不是“小白”承担得起的

    个人建议先确定这 30 篇怎么来,容易获取可以 gpt 帮忙写个小脚本,需要海量后筛的就付费请人吧
    xiaopapa
        16
    xiaopapa  
       2024 年 12 月 10 日
    不难,爬虫的难是大量爬取必然触发反爬,你这直接 selenium 一把梭
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     883 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 77ms UTC 21:49 PVG 05:49 LAX 14:49 JFK 17:49
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86