一个可以自定义任意网站的抓取订阅工具,欢迎建议和指导 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
Yegrit
V2EX    分享创造

一个可以自定义任意网站的抓取订阅工具,欢迎建议和指导

  •  
  •   Yegrit 2014-02-22 15:01:54 +08:00 8602 次点击
    这是一个创建于 4254 天前的主题,其中的信息可能已经有所发展或是发生改变。
    每天都上很多网站,其实要是数一下,也就那么几个.调查了很多朋友每天上网情况,多数是每天上的网站约在0-15个之间,如果一个个网站去查看,其实很浪费时间,所以我就想有这么一个东西,把关注的一些网站收集到一块,然后有个东西来自动去更新抓取,只须看一下抓取的列表,就知道要看哪些内容,可以说是一目了然,有最新的也不会落下。

    用了一段时间做出原型,然后自己用了一段时间,现在已经改变了经常去逛网站
    乱看的习惯了,休闲时打开一下这个列表,一看有新的要看的就打开看看,没有就直接关了,然后该干什么干什么去,节省了不少时间。最近老婆生孩子住院的几天上网不方便,就用手机看这个列表,感觉真的挺方便的。

    最初时是根据迷你门户的模式想出来的,比如QQ,或是迅雷,115之类的都会弹出一个小窗口,就是一个迷你门户,有各种花边新闻和广告,但这是商家推送的,不是我要关注的,虽然吸引眼球。所以就有了这个想法,要做一个只显示自己关注的最新资讯的东西。

    这个东西就是一个可以自定义的订阅器,将经常浏览的网站中喜欢的 “块”加入,自动更
    新最新内容标题,不用到每个网站去查看,节省翻阅时间。帮你列出的是你想看的内容,让你快速找到想看的和新的,而不是推送的,这里只是索引,不抓取内容。
    现在只做了最初实用的功能,界面没怎么考虑,因为一直是给自己用的。
    与RSS订阅很相似,但区别是RSS是网站设定好的了,而这个是你自己选择的

    很多还在学习研究中,欢迎轻拍,

    ------------------------------------------------------------
    演示地址: http://hackreader.com/reader/
    http://hackreader.com/reader-mobile/ (移动版)

    测试账号:用户和密码都是:HackReader

    使用方法:登陆后进入,左下角有加种子 Add - New Feeder, 添加一个种子即Feed

    [Name] 种子名称随意,可以不添,自己知道即可

    [Url] 目标地址是必须的

    [Seed] 种子规则可以是此页中的任意一项:

    [链接的标题] or [某块的任一条内容的地址] or [此块列表的CSS选择器]
    ------------------------------------------------------------
    注意:如果用链接的标题,则标题中不能含有html标记,这里还没处理,可以用地址就解决了


    暂时抓取的频率为30-72分钟,根据对应网站更新速度而设定的更新频率。

    初次添加的种子可能需要1-3分钟初始化数据,不要刷新。
    32 条回复    2020-12-04 17:24:53 +08:00
    likaci
        1
    likaci  
       2014-02-22 15:17:44 +08:00   1
    赞一个,期待实现细节
    standin000
        2
    standin000  
       2014-02-22 15:33:29 +08:00   1
    类似yahoo pipes?
    wdkwdkwdk
        3
    wdkwdkwdk  
       2014-02-22 15:57:56 +08:00 via Android   1
    我也有次想法,赞一个,希望开源
    Yegrit
        4
    Yegrit  
    OP
       2014-02-22 16:01:15 +08:00
    当做到比较完善时就考虑开源
    Yegrit
        5
    Yegrit  
    OP
       2014-02-22 16:02:00 +08:00
    @standin000
    我觉得很不好用,如果好用就不做这个了
    uleone
        6
    uleone  
       2014-02-22 16:58:42 +08:00 via iPad   1
    也曾经有此想法,赞
    flytwokites
        7
    flytwokites  
       2014-02-22 17:11:06 +08:00   1
    我觉得能为不提供rss的网站生成rss的工具更通用,因为可以用在已经存在的大量rss阅读器中,毕竟不会为了几个没提供rss的源就转用你这个阅读器。
    Mutoo
        8
    Mutoo  
       2014-02-22 17:15:11 +08:00   1
    我同学也做了一个类似的东西 http://www.anypush.in/
    yaotian
        9
    yaotian  
       2014-02-22 19:33:26 +08:00   1
    我也做过这个,你输入的地方没有encoding,你自己做的判断?
    Yegrit
        10
    Yegrit  
    OP
       2014-02-22 19:41:17 +08:00
    @yaotian
    可否发来欣赏一下
    yaotian
        11
    yaotian  
       2014-02-22 20:04:50 +08:00
    @Yegrit 实际上 http://lumeinv.com 就是基于我说的那个后台程序。实时抓取,最新的。
    lidonghao
        12
    lidonghao  
       2014-02-22 20:08:16 +08:00
    顶一个
    Yegrit
        13
    Yegrit  
    OP
       2014-02-22 20:14:51 +08:00
    @yaotian
    不同型,我这个只是面向私有的
    inee
        14
    inee  
       2014-02-22 20:18:40 +08:00 via Android
    @yaotian
    @standin000
    @Mutoo 有没有将pc和移动端打通的?
    hsinglin
        15
    hsinglin  
       2014-02-22 20:21:36 +08:00   1
    http://feed43.com/

    我也在用类似的服务,但是它那个更加完善的是定义的模板,比如我要定义一个区域。这个区域里的内容可以让我在模板里重新进行组装。楼主这个工具很赞,顶。
    Yegrit
        16
    Yegrit  
    OP
       2014-02-22 20:34:38 +08:00
    @hsinglin
    也要研究类似工具的优点了
    windyang
        17
    windyang  
       2014-02-22 20:38:04 +08:00   1
    给LZ出个点子,可以实验一下,不成也无所谓。

    个人觉得RSS订阅不如内容导航好,用户关注的网站是很集中的,冷门的抓取的意义也不大,自己点开网页也能看到。

    小众的动漫、影视剧之类的消息更新,做成导航的形式,但是附带最新通知。加上用户订阅、分享、点评、排行之类的。

    加上人共分类和简单筛选。

    新型的HAO123。

    另外内容和形式可以参考传送门http://chuansong.me/
    yaotian
        18
    yaotian  
       2014-02-22 23:17:44 +08:00   1
    @windyang 给个使用这个的理由?和hao123的差别是什么?小众?
    liubin
        19
    liubin  
       2014-02-22 23:51:32 +08:00   1
    跟RSS Reader有什么区别?
    inee
        20
    inee  
       2014-02-22 23:57:29 +08:00   2
    太复杂了,和reader,做的一样,用搜索,然后后台自动检测那个网站

    你这个就强大在能否自动生成没有rss提供的网站。

    现在这个还是太复杂了
    windyang
        21
    windyang  
       2014-02-23 00:22:17 +08:00   1
    @yaotian 小众是一个文化概念,不是说规模小。动漫、影视周边的站太多了,加起来绝对不小了。跟HAO123没什么好对比的,不是一个东西,也别想做成HAO123那么成功,那是不可能的。重点是内容导航,比如V2EX上也经常有人问,某某方面有什么好的站,通过导航找到新的站,也是需求之一。

    没有现成答案,只能去尝试,所以我只是说建议,一个点子而已。

    另外我建议做项目应该多一点兴趣爱好,别只知道美女图。现在不像以前,做个简单工具就有很多人用。如果与兴趣爱好,做起来就算有所怀疑,也会没有太多障碍去做。往往这样,反而做成了。过去这样例子太多了。电影社交网络不就是这样。
    Yegrit
        22
    Yegrit  
    OP
       2014-02-23 08:22:03 +08:00
    谁这么淘气,连测试密码也改
    taogogo
        23
    taogogo  
       2014-02-24 16:13:43 +08:00
    yangyouzhi
        24
    yangyouzhi  
       2014-02-25 10:19:10 +08:00   1
    这个的确不错,点赞
    v2ro88
        25
    v2ro88  
       2014-02-26 13:22:13 +08:00   1
    再加上全文输出更完美
    thewei
        26
    thewei  
       2014-02-27 12:25:36 +08:00   1
    试用着,很好用,如果能支持推送到pocket或者kindle就好了。
    softempire
        27
    softempire  
       2014-02-27 13:10:23 +08:00   1
    不错啊,我也想过做一个:)
    cxl008
        28
    cxl008  
       2014-02-27 14:01:47 +08:00   1
    和我前几天想的东西一样啊,很不错。能否开源学习下?
    Yegrit
        29
    Yegrit  
    OP
       2014-02-27 14:23:54 +08:00
    @cxl008
    现在比较分散凌乱和一些地方要调整,将来比较完善后会开源
    keven
        30
    keven  
       2014-03-26 00:22:26 +08:00
    不错啊,做出来给我用一下
    jadezhang
        31
    jadezhang  
       2014-05-19 13:14:50 +08:00
    不知道现在什么状态了
    bianz103
        32
    bianz103  
       2020-12-04 17:24:53 +08:00
    这个还在更新吗, 有用
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5454 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 92ms UTC 08:35 PVG 16:35 LAX 01:35 JFK 04:35
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86