昨夜刚撸完一个微信公众号爬虫的网站,欢迎提出意见 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
iewgnaw
V2EX    Python

昨夜刚撸完一个微信公众号爬虫的网站,欢迎提出意见

  •  3
     
  •   iewgnaw 2015-01-22 09:20:24 +08:00 37434 次点击
    这是一个创建于 3918 天前的主题,其中的信息可能已经有所发展或是发生改变。

    http://weiread.pw/

    每天定时抓取公众号文章,提供订阅阅读,另外还可以生成kindle杂志定时推送。

    css和js现学现用的,写的比较渣;欢迎提出使用意见

    第 1 条附言    2015-01-22 11:40:43 +08:00
    抱歉,才发现微博登录还要提交审核,否则除了自己的账号其他的无法登录。
    我晚上回去再提交审核一下吧
    85 条回复    2017-12-12 15:58:43 +08:00
    tjxiter
        1
    tjxiter  
       2015-01-22 09:23:23 +08:00
    做个网站,一个月多少钱啊?
    yanwen
        2
    yanwen  
       2015-01-22 09:23:58 +08:00
    不错。。赞一个。。
    typcn
        3
    typcn  
       2015-01-22 09:25:27 +08:00
    Error code: DNS_PROBE_FINISHED_NXDOMAIN
    lzxgh621
        4
    lzxgh621  
       2015-01-22 09:28:25 +08:00
    图片全挂,要不缓存一下,成本太高。。。
    crabhit
        5
    crabhit  
       2015-01-22 09:28:35 +08:00
    这数据是怎么爬下来的
    iewgnaw
        6
    iewgnaw  
    OP
       2015-01-22 09:31:17 +08:00
    @tjxiter 什么一个月多少钱?
    likid
        7
    likid  
       2015-01-22 09:31:57 +08:00   1
    点击订阅没反映。

    另,搜索可以用 搜狗的微信搜索。
    其实可以不用放自己服务器上,只需要做一个简单的转换,把搜狗搜索的内容扒过来即可。也不需要定时抓取。
    iewgnaw
        8
    iewgnaw  
    OP
       2015-01-22 09:32:03 +08:00
    @typcn 可能是pw后缀的域名 有的地方不能解析吧,当时没考虑这个问题
    Hiufan
        9
    Hiufan  
       2015-01-22 09:33:35 +08:00
    用python写的?
    likid
        10
    likid  
       2015-01-22 09:33:57 +08:00   2
    给我接口,帮你鲁一个 iOS 的 App
    iewgnaw
        11
    iewgnaw  
    OP
       2015-01-22 09:40:55 +08:00
    @likid 登录之后才能订阅的。点击订阅不是跳转到登录界面?
    内容是根据搜狗抓取来的,不爬图片服务器压力也不大的
    xmy2232867
        12
    xmy2232867  
       2015-01-22 09:41:18 +08:00
    搞个这个要用到哪些技术啊?
    wuxianglong
        13
    wuxianglong  
       2015-01-22 09:42:04 +08:00
    请问楼主,数据是怎么抓取的?
    iewgnaw
        14
    iewgnaw  
    OP
       2015-01-22 09:43:25 +08:00
    @lzxgh621 你那边看不到图片?部分放qiniu上的,其他都是外链微信的
    iewgnaw
        15
    iewgnaw  
    OP
       2015-01-22 09:44:27 +08:00
    @Hiufan 是的,django框架
    dddd
        16
    dddd  
       2015-01-22 09:45:02 +08:00
    以前看到过一个传送门……
    http://chuansong.me/

    …………
    likid
        17
    likid  
       2015-01-22 09:45:55 +08:00
    @iewgnaw 没有跳到登录界面。
    likid
        18
    likid  
       2015-01-22 09:46:41 +08:00
    @iewgnaw 刚才试了一下,又可以了
    iewgnaw
        19
    iewgnaw  
    OP
       2015-01-22 09:46:51 +08:00
    @dddd 是的,开始我也是用传送门的;我一开始的目的是为了抓取推送到kindle的,后来还是顺带用django写了阅读功能
    jaytags
        20
    jaytags  
       2015-01-22 09:48:56 +08:00
    @iewgnaw
    lz速度还不错哦。 主机哪里买的呢?
    qiniu 的存储怎么变成这样的clouddn.com域名呢?
    iewgnaw
        21
    iewgnaw  
    OP
       2015-01-22 09:54:48 +08:00
    @xmy2232867
    django 框架, python主要用request bs4 gevent


    @wuxianglong
    搜狗有微信搜索功能,可以抓取url, 再抓取内容
    lizhijun
        22
    lizhijun  
       2015-01-22 09:57:20 +08:00
    lz可以看看这个 界面好看多了

    http://wx.91toutiao.com/
    veau
        23
    veau  
       2015-01-22 09:58:42 +08:00
    @iewgnaw ,sogou的微信搜索,抓取频率高了不是会被干么。
    kiritoalex
        24
    kiritoalex  
       2015-01-22 10:00:32 +08:00   1
    不错,做得挺赞的!
    unixbeta
        26
    unixbeta  
       2015-01-22 10:11:20 +08:00 via Android
    来源吧
    linsk
        27
    linsk  
       2015-01-22 10:11:44 +08:00
    @jaytags leancloud
    iewgnaw
        28
    iewgnaw  
    OP
       2015-01-22 10:12:33 +08:00
    @jaytags 两个办瓦工的vps, 凑合还可以用
    我用qiniu 默认给的域名,好像是可以自定义
    alexkh
        29
    alexkh  
       2015-01-22 10:13:23 +08:00
    win8,感觉文章字体有点虚
    iewgnaw
        30
    iewgnaw  
    OP
       2015-01-22 10:15:15 +08:00
    @veau 开始也碰到过这个问题,后来实现一个代理池,基本解决了被干的问题。
    不过请求频率低一点,尽量伪造真实的浏览器行为能减少被干的可能
    declanVox
        31
    declanVox  
       2015-01-22 10:17:00 +08:00
    能帮抓下人人公众平台的这个账号(历史就是重口味)吗?我想把他变成RSS订阅(人人公众号在PC端不让看,只能上移动端)

    链接如下
    http://public.renren.com/blog/630002445/944051120
    puyo
        32
    puyo  
       2015-01-22 10:17:19 +08:00
    puyo
        33
    puyo  
       2015-01-22 10:18:46 +08:00
    可以定于很赞啊,但是“weibo login failed”
    wormcy
        34
    wormcy  
       2015-01-22 10:26:36 +08:00
    同好奇 数据是从哪爬的
    Jning
        35
    Jning  
       2015-01-22 10:54:41 +08:00
    不错,赞
    exceloo
        36
    exceloo  
       2015-01-22 11:14:05 +08:00
    搜狗又是怎么抓的,好奇
    tearsinchina
        37
    tearsinchina  
       2015-01-22 11:25:19 +08:00
    请问有提交的地方吗?
    iewgnaw
        38
    iewgnaw  
    OP
       2015-01-22 11:30:24 +08:00
    @puyo MD微博登录还要新浪审核?好像是这个问题,之前一直用自己的账号登录,没有问题。哎,晚上回去再弄一下吧。可以订阅阅读,推送到kindle


    @tearsinchina 左下角有个“添加公众号”的按钮;添加之后,并不会立即抓取文章列表
    shajiquan
        39
    shajiquan  
       2015-01-22 11:31:30 +08:00
    看起来很酷。但是用微博登录后显示:weibo login failed。
    zhoupengfei
        40
    zhoupengfei  
       2015-01-22 11:35:35 +08:00
    @exceloo 搜狗微信不是一家吗
    Crossin
        41
    Crossin  
       2015-01-22 11:41:58 +08:00
    楼主是如何找到新文章的?一直没找到这个来源
    BloodyGhoul
        42
    BloodyGhoul  
       2015-01-22 11:59:01 +08:00 via Android
    可以提交自己想要的公众号么?
    jon
        43
    jon  
       2015-01-22 11:59:28 +08:00
    不错做这个要会什么,学多久?
    endosome
        44
    endosome  
       2015-01-22 12:15:03 +08:00
    可以给出rss 链接么?
    zangbob
        45
    zangbob  
       2015-01-22 12:24:35 +08:00   1
    楼主已经说了,不能微博登录,所以没法测试添加rss。。。

    希望楼主能继续努力,超越那个chuansongme。。。。那个烂网站太恶心了
    wanghanlin
        46
    wanghanlin  
       2015-01-22 12:26:11 +08:00
    babyname
        47
    babyname  
       2015-01-22 12:26:29 +08:00
    搜狗是腾讯给的API
    第三方抓,抓取某个公众号的文章,通过历史消息页面。
    Lucups
        48
    Lucups  
       2015-01-22 12:54:09 +08:00
    @lzxgh621 不是全挂,我开始也以为是的,要滚动一下页面,才会加载图片。。。bug @iewgnaw
    ericls
        49
    ericls  
       2015-01-22 12:55:07 +08:00
    真羡慕你们这些会设计界面的!!
    iewgnaw
        50
    iewgnaw  
    OP
       2015-01-22 13:15:59 +08:00
    @Crossin 查看搜狗微信搜索的请求地址啊
    @BloodyGhoul 可以添加的,走下角有个按钮的。但不是立即抓取所有内容。

    @jon 会前端的话很快的吧,我主要是不会前端,现学现做的,真是吐血啊

    @Lucups 哪个页面滚动才加载图片的?文章的阅读页面是等图片到达可视区才加载的,其他的都是直接加载的

    @ericls 现学现做,再抄抄别人的界面
    Alecio
        51
    Alecio  
       2015-01-22 13:20:58 +08:00
    天。。这几天我也正在做一个类似的东西,没想到LZ已经做好了。。
    后台转mobi格式用的是calibre还是Kindlegen?
    maye696
        52
    maye696  
       2015-01-22 13:25:11 +08:00
    这个好东西,能订阅feedly就太好了
    vivisidea
        53
    vivisidea  
       2015-01-22 13:25:54 +08:00
    不错啊,但这样会有版权问题么。。
    Lucups
        54
    Lucups  
       2015-01-22 13:37:38 +08:00
    @iewgnaw 不知道是不是你的 jquery.unveil 有问题



    Lucups
        55
    Lucups  
       2015-01-22 13:39:11 +08:00
    难道是因为我用 21寸屏幕看的原因?
    SuperSquirrel
        56
    SuperSquirrel  
       2015-01-22 13:53:21 +08:00
    很不错,喜欢这样的界面
    huigeer
        57
    huigeer  
       2015-01-22 13:56:19 +08:00
    界面不错哦,默默赞一个
    tjxiter
        58
    tjxiter  
       2015-01-22 14:43:21 +08:00
    @iewgnaw 做网站,买域名一个月多少钱? 不过查了下,你那个域名是免费的
    shiny
        59
    shiny  
       2015-01-22 14:45:18 +08:00
    @iewgnaw 搜狗抓取有频率限制,你有没有做突破限制的处理?
    hanyun
        60
    hanyun  
       2015-01-22 19:56:16 +08:00
    不错噢!之前有看过传送门~ @shiny 同问搜狗的抓取频率限制怎么处理?
    iewgnaw
        61
    iewgnaw  
    OP
       2015-01-22 20:17:29 +08:00
    @Alecio 这么巧啊。用的kindlegen的,calibre有命令行的方式?
    @vivisidea 细究的话肯定有的,但这种网站不会有什么大的影响,应该没人追究吧
    @Lucups 应该是那个js有些问题。我再改改看
    iewgnaw
        62
    iewgnaw  
    OP
       2015-01-22 20:19:29 +08:00
    @tjxiter 不是免费的,一年也就几十块

    @shiny
    @hanyun
    实现了一个代理池的功能,保证每次请求都是代理池中的ip
    ljcarsenal
        63
    ljcarsenal  
       2015-01-22 21:19:41 +08:00
    大家都热衷爬微信的文章,哈哈。。。一个月之前做了个 http://www.fxbiao.net/ ,不过界面不是我写的
    fuermosi777
        64
    fuermosi777  
       2015-01-23 00:05:12 +08:00   2
    可以看看我做的iOS app 也是用python爬的 不过目前公众号只有120多个 https://itunes.apple.com/us/app/xue-sheng-ri-bao-hui-ju-zui/id954164794?mt=8
    flash866
        65
    flash866  
       2015-01-23 10:31:24 +08:00
    楼主能分享下原理吗?
    Juntle
        66
    Juntle  
       2015-01-23 10:46:56 +08:00
    很赞哦!
    ATiGr
        67
    ATiGr  
       2015-01-23 10:53:42 +08:00
    非常好用!期待信息更加完全!感觉比手机看方便太多啊!
    imlewc
        68
    imlewc  
       2015-01-23 12:00:02 +08:00
    imlewc
        69
    imlewc  
       2015-01-23 12:00:46 +08:00
    @shiny 何必那么频繁,定时就够了
    imlewc
        70
    imlewc  
       2015-01-23 12:01:17 +08:00
    @dddd 这个还行 量还是有的
    imlewc
        71
    imlewc  
       2015-01-23 12:02:17 +08:00
    @vivisidea 在中国是不太用考虑这个问题的
    imlewc
        72
    imlewc  
       2015-01-23 12:03:54 +08:00
    @fuermosi777 点个赞
    vivisidea
        73
    vivisidea  
       2015-01-23 14:41:50 +08:00
    @tjxiter pw域名不免费,但相对比较便宜,namecheap上最近注册了一个 lib64.pw 首年才24块RMB,续费好像是 50RMB/year

    估计这类域名对搜索引擎不是很友好,可能内容比较难被收录
    tjxiter
        74
    tjxiter  
       2015-01-23 17:16:05 +08:00
    @vivisidea 看来一分钱一分货是永恒的真理。

    要是搞个个人博客买什么域名比较好呀?
    ivlucks
        75
    ivlucks  
       2015-01-23 18:03:08 +08:00
    @yanwen 谢谢
    vivisidea
        76
    vivisidea  
       2015-01-23 18:21:37 +08:00
    @tjxiter 不造啊。。个人博客写着写着就写不下去了,我还有一个 info 域名收录情况貌似还好

    去google 的 webmaster tool 提交索引请求
    提交 sitemap.xml
    优化页面的 title,keywords

    这些基本的对搜索引擎友好的事情要做

    当然最重要还是文章质量要高
    rico93
        77
    rico93  
       2015-01-25 15:14:17 +08:00
    kindle的订阅发送时怎么实现的
    dellch
        78
    dellch  
       2015-01-25 17:11:36 +08:00
    @fuermosi777 请问是原生应用么?
    fuermosi777
        79
    fuermosi777  
       2015-01-25 23:00:53 +08:00
    @dellch 是的 文章页面用的webview
    Crossin
        80
    Crossin  
       2015-01-29 10:53:45 +08:00
    @iewgnaw @wanghanlin 嗯,那么问题来了:他这里是通过什么发现文章更新并抓取的呢?
    虽然从实现上来说,有一个地方能给到最新数据已经可以了,但没想通这个问题。官方公开渠道是没找到。
    有想到过,通过微信关注一堆公众号,然后想办法模拟这个微信号的登录,拿到收到的公众号文章列表。
    misctalk
        81
    misctalk  
       2015-02-02 19:29:56 +08:00
    文章抓取是怎么实现的啊?
    有没有开源实现可以学习?

    谢谢了
    muzixinly
        82
    muzixinly  
       2015-08-03 15:31:23 +08:00
    @iewgnaw 代理池用的哪个呢?
    wenfan
        83
    wenfan  
       2015-11-19 13:22:34 +08:00 via iPhone
    我也一直有个项目 需要找到 key 和 pass_ticket , pass_ticket 已经基本解决了,还需要 key ! 如果有人会解决 可以有偿!!! wechat 微信: 23511839.......跪求
    haoning747
        84
    haoning747  
       2016-03-07 21:04:05 +08:00
    微信我算是放弃了,直接爬不可以,用斯库林模拟点击也不可以,所以,大家还不不要再搞了,我还是玩我的网盘吧: http://www.quzhuanpan.com
    wjx1993
        85
    wjx1993  
       2017-12-12 15:58:43 +08:00 via Android
    @likid 搜狗的微信公众号文章是有时效的吧!
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2976 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 13:43 PVG 21:43 LAX 06:43 JFK 09:43
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86