微信公众号文章采集 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
jijiwaiwai
V2EX    程序员

微信公众号文章采集

  •  
  •   jijiwaiwai 2017-11-24 11:25:21 +08:00 9395 次点击
    这是一个创建于 2878 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前开放注册免费使用 http://www.wechatposts.com/ 输入公众号名称提交任务,五分钟内方可到处所有文章列表

    第 1 条附言    2017-11-24 15:18:05 +08:00
    网站打不开可以临时使用:
    http://l162241j11.imwork.net/
    45 条回复    2020-02-14 18:10:57 +08:00
    nyfwan123
        1
    nyfwan123  
       2017-11-24 11:27:45 +08:00
    求问后端大概实现思路
    cqcn1991
        2
    cqcn1991  
       2017-11-24 11:47:28 +08:00
    好 NB...
    golmic
        3
    golmic  
       2017-11-24 11:57:13 +08:00 via Android
    大概是怎么实现的呢?
    br0x
        4
    br0x  
       2017-11-24 12:07:38 +08:00
    同求,楼主讲一下思路呗
    grimpil
        5
    grimpil  
       2017-11-24 12:13:04 +08:00 via Android
    只能采集十篇?
    deathql
        6
    deathql  
       2017-11-24 12:24:07 +08:00
    这个是怎么实现的 我也想知道
    linKnowEasy
        7
    linKnowEasy  
       2017-11-24 12:29:02 +08:00
    魔鬼交际学... 抓取失败
    LukeChien
        8
    LukeChien  
       2017-11-24 12:34:47 +08:00 via Android
    搜狗搜索抓的吧
    utopia5719
        9
    utopia5719  
       2017-11-24 12:37:38 +08:00
    试了一下,40 分钟了也没数据啊
    jijiwaiwai
        10
    jijiwaiwai  
    OP
       2017-11-24 12:44:53 +08:00
    @grimpil 可以采集所有
    jijiwaiwai
        11
    jijiwaiwai  
    OP
       2017-11-24 12:45:12 +08:00
    @LukeChien 不是
    jijiwaiwai
        12
    jijiwaiwai  
    OP
       2017-11-24 12:46:01 +08:00
    @utopia5719 提交的时候,请提交正确的“微信公众号名称”,注意区分大小写,且不是“微信号”
    jijiwaiwai
        13
    jijiwaiwai  
    OP
       2017-11-24 12:46:46 +08:00
    @linKnowEasy 可以的,今天刚上线,测试的人数太多,可能抓取有延迟
    deathql
        14
    deathql  
       2017-11-24 12:48:45 +08:00
    @jijiwaiwai web 微信吧
    buir
        15
    buir  
       2017-11-24 12:55:45 +08:00
    Service Temporarily Unavailable

    The server is temporarily unable to service your request due to maintenance downtime or capacity problems. Please try again later.

    Apache/2.2.15 (CentOS) Server at www.wechatposts.com Port 80
    sangmong
        16
    sangmong  
       2017-11-24 12:56:06 +08:00
    @buir 我这也是
    arens
        17
    arens  
       2017-11-24 13:02:40 +08:00
    注册不能
    buir
        18
    buir  
       2017-11-24 13:04:22 +08:00
    直接 503 玩死了~
    jijiwaiwai
        19
    jijiwaiwai  
    OP
       2017-11-24 13:16:49 +08:00
    @buir 刷新
    jijiwaiwai
        20
    jijiwaiwai  
    OP
       2017-11-24 13:17:08 +08:00
    @deathql 也不是,哈哈
    friejq
        21
    friejq  
       2017-11-24 13:19:05 +08:00
    望楼主分享思路?
    weer0026
        22
    weer0026  
       2017-11-24 13:29:33 +08:00
    正常应该搜狗来的,还记得之前造数分享了一个从微信公众号后台抓的办法。
    mooncakejs
        23
    mooncakejs  
       2017-11-24 13:31:27 +08:00
    微信拿 key,关注采集,数据问题不大,号多了就不好维护了。
    missdeer
        24
    missdeer  
       2017-11-24 14:05:56 +08:00
    503 Service Temporarily Unavailable

    The server is temporarily unable to service your request due to maintenance downtime or capacity problems. Please try again later.
    krasie
        25
    krasie  
       2017-11-24 14:13:23 +08:00
    Proxy Error

    The proxy server received an invalid response from an upstream server.
    luoshixiong
        26
    luoshixiong  
       2017-11-24 14:14:59 +08:00
    打不开 凉了?
    faustina
        27
    faustina  
       2017-11-24 14:25:35 +08:00
    502
    xsd3169
        28
    xsd3169  
       2017-11-24 14:25:42 +08:00
    凉了凉了凉了。。
    ```
    <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
    <html><head>
    <title>502 Proxy Error</title>
    </head><body>
    <h1>Proxy Error</h1>
    <p>The proxy server received an invalid
    response from an upstream server.<br />
    The proxy server could not handle the request <em><a href="/">GET&nbsp;/</a></em>.<p>
    Reason: <strong>Error reading from remote server</strong></p></p>
    <hr>
    <address>Apache/2.2.15 (CentOS) Server at www.wechatposts.com Port 80</address>
    </body></html>
    ```
    jijiwaiwai
        29
    jijiwaiwai  
    OP
       2017-11-24 15:19:31 +08:00   1
    @xsd3169 网站打不开可以临时使用:
    http://l162241j11.imwork.net/
    xsd3169
        30
    xsd3169  
       2017-11-24 15:26:26 +08:00
    @jijiwaiwai 666
    之前我通过 MITM 做过一个差不多的,然而部分操作依然需要手动 2333
    ORZRRR
        31
    ORZRRR  
       2017-11-24 15:31:28 +08:00
    大哥没有数据啊
    anteros
        32
    anteros  
       2017-11-24 15:34:57 +08:00
    是关掉了吗?没抓到呀,就你的全球人工智能能抓到,其他的公众号都没用了,是你关掉服务了吗?
    deadofpeople
        33
    deadofpeople  
       2017-11-24 16:03:07 +08:00
    关服务了吗 /?
    xsd3169
        34
    xsd3169  
       2017-11-24 16:08:59 +08:00
    @jijiwaiwai 抓不到..
    anthow
        35
    anthow  
       2017-11-24 16:59:33 +08:00
    老铁敢不敢告诉我一下下思路,嗯哼?
    jijiwaiwai
        36
    jijiwaiwai  
    OP
       2017-11-24 17:56:03 +08:00
    @xsd3169 全自动搞定
    AlwaysBee
        37
    AlwaysBee  
       2017-11-24 18:41:06 +08:00
    采集不了。。。。
    AlwaysBee
        38
    AlwaysBee  
       2017-11-24 20:09:03 +08:00
    看采集结果是和搜狗的结果一样的,那需要解决的问题就是验证码,这个可以通过 IP 代理池来进行规避验证码,如果要采集历史文章,只能通过微信的客户端进行采集,而这个会遇到封号的问题
    jijiwaiwai
        39
    jijiwaiwai  
    OP
       2017-11-25 09:40:17 +08:00
    @AlwaysBee 并不是搜狗,我的是实时采集的
    jijiwaiwai
        40
    jijiwaiwai  
    OP
       2017-11-25 09:40:33 +08:00
    @php01 临时关了一下
    Britter
        41
    Britter  
       2017-11-25 10:24:17 +08:00
    应该不是搜狗,搜狗限制太多了,这个应该是通过微信里边的机制来抓取的,之前也做过一套
    AlwaysBee
        42
    AlwaysBee  
       2017-11-25 10:30:20 +08:00
    @jijiwaiwai 但是我试了,并没有把历史文章采集到,只有最近十天的文章
    akaayy
        43
    akaayy  
       2017-11-25 16:58:26 +08:00
    求分享思路。。
    Crayon2022
        44
    Crayon2022  
       2017-11-26 21:24:27 +08:00
    求分享思路
    golangggg
        45
    golangggg  
       2020-02-14 18:10:57 +08:00
    原贴过去好久了.. 已经过期了, 我这里有一套现在可用的免费 api 爬虫 https://github.com/Edaaaaa/wx-spider 可以供大家参考 codes 里面有 php 和 py 的 demo 简单写一点逻辑就可以使用了 api 方式可以 在几分钟时间内从开发到上线.比起自己搭建 效率高了很多倍 如果对你有帮助的话 记得在 github 点一下 star 谢谢了~
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2208 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 00:58 PVG 08:58 LAX 17:58 JFK 20:58
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86