第一帖:学爬虫爬文库,下载文库,总量初步准备 10w 级别,说思路,求指点 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
leozy2014
V2EX    问与答

第一帖:学爬虫爬文库,下载文库,总量初步准备 10w 级别,说思路,求指点

  •  
  •   leozy2014 2015-05-27 11:05:23 +08:00 4636 次点击
    这是一个创建于 3792 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本人菜鸟,长期潜伏v2ex,发言少,近期学python,学到爬虫这块,脑洞一开,准备做个小玩意,求指点。

    总体思路:通过互刷积分,获取大量百度文库积分,用来下载文库收费内容,当下载数量超过10w后建站提供下载。

    设想步骤:
    1、互刷文库积分,用来下载收费内容
    2、用火车头采集所有类别中收费内容,按下载量顺序采集
    3、用python写爬虫,读步骤2中的文库列表,下载文库内容归档
    4、建站提供下载

    新手啥不懂,纯瞎想,求指点,求轻喷。

    13 条回复    2016-04-18 01:59:33 +08:00
    professorz
        1
    professorz  
       2015-05-27 11:21:05 +08:00
    互刷文库积分怎么做到
    leozy2014
        2
    leozy2014  
    OP
       2015-05-27 11:38:20 +08:00
    @professorz 有软件自动化,具体搜一下,见到过,忘记名字了
    lincanbin
        3
    lincanbin  
       2015-05-27 11:53:41 +08:00
    先找好律师,问问如果被版权所有人告了,会赔多少,掂量一下成本。
    leozy2014
        4
    leozy2014  
    OP
       2015-05-27 11:59:43 +08:00
    @lincanbin 谢谢提醒
    alp
        5
    alp  
       2015-05-27 12:49:31 +08:00 via Android
    手机版下载不需要积分的
    zhaoxiting1997
        6
    zhaoxiting1997  
       2015-05-27 13:56:50 +08:00 via Android
    对于不长的文档不用积分直接通过类似截图一样的方法制成PDF不是更简单。过多刷积分估计会被封。只有一下长的文档或者电子书才要用积分下载。应该做一个函数算一下。还有有些文档有完全相同的免费或便宜的文档,应当建文档名再搜索一次,根据页数和大小判断。
    另:建议选用合适位置的vps,忽略dcma的,并且加密好做好网盘备份。
    leozy2014
        7
    leozy2014  
    OP
       2015-05-27 15:20:28 +08:00
    @alp 还有个思路就是便携个手机程序,爬取下载到手机再导出。。。仅设想。。。
    leozy2014
        8
    leozy2014  
    OP
       2015-05-27 15:22:23 +08:00
    @zhaoxiting1997 这都是具体细节算法了,另外dcma是啥嘛?
    zhaoxiting1997
        9
    zhaoxiting1997  
       2015-05-27 16:32:07 +08:00 via Android
    @leozy2014 数字千年版权法。美国vps收到DCMA版权投诉,核实后会封号
    gamecreating
        10
    gamecreating  
       2015-05-27 16:47:21 +08:00
    不用担心盗版..别人告你的时候 你已经赚HI了...你如果没赚钱 他也懒得告你...
    这就是中国现状.
    alp
        11
    alp  
       2015-05-27 17:04:04 +08:00   1
    @leozy2014 找到手机接口就可以了,为啥非要手机下载呢。之前弄过百度文库1.0的接口。不知道还能不能用
    leozy2014
        12
    leozy2014  
    OP
       2015-05-27 19:12:03 +08:00
    @alp 对哦,我那是笨办法嘛。
    wondervendor
        13
    wondervendor  
       2016-04-18 01:59:33 +08:00
    还不如直接共享这些账号
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3230 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 11:56 PVG 19:56 LAX 04:56 JFK 07:56
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86