第一帖:学爬虫爬文库,下载文库,总量初步准备 10w 级别,说思路,求指点 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
leozy2014

第一帖:学爬虫爬文库,下载文库,总量初步准备 10w 级别,说思路,求指点

  •  
  •   leozy2014 May 27, 2015 4943 views
    This topic created in 3991 days ago, the information mentioned may be changed or developed.

    本人菜鸟,长期潜伏v2ex,发言少,近期学python,学到爬虫这块,脑洞一开,准备做个小玩意,求指点。

    总体思路:通过互刷积分,获取大量百度文库积分,用来下载文库收费内容,当下载数量超过10w后建站提供下载。

    设想步骤:
    1、互刷文库积分,用来下载收费内容
    2、用火车头采集所有类别中收费内容,按下载量顺序采集
    3、用python写爬虫,读步骤2中的文库列表,下载文库内容归档
    4、建站提供下载

    新手啥不懂,纯瞎想,求指点,求轻喷。

    13 replies    2016-04-18 01:59:33 +08:00
    professorz
        1
    professorz  
       May 27, 2015
    互刷文库积分怎么做到
    leozy2014
        2
    leozy2014  
    OP
       May 27, 2015
    @professorz 有软件自动化,具体搜一下,见到过,忘记名字了
    lincanbin
        3
    lincanbin  
       May 27, 2015
    先找好律师,问问如果被版权所有人告了,会赔多少,掂量一下成本。
    leozy2014
        4
    leozy2014  
    OP
       May 27, 2015
    @lincanbin 谢谢提醒
    alp
        5
    alp  
       May 27, 2015 via Android
    手机版下载不需要积分的
    zhaoxiting1997
        6
    zhaoxiting1997  
       May 27, 2015 via Android
    对于不长的文档不用积分直接通过类似截图一样的方法制成PDF不是更简单。过多刷积分估计会被封。只有一下长的文档或者电子书才要用积分下载。应该做一个函数算一下。还有有些文档有完全相同的免费或便宜的文档,应当建文档名再搜索一次,根据页数和大小判断。
    另:建议选用合适位置的vps,忽略dcma的,并且加密好做好网盘备份。
    leozy2014
        7
    leozy2014  
    OP
       May 27, 2015
    @alp 还有个思路就是便携个手机程序,爬取下载到手机再导出。。。仅设想。。。
    leozy2014
        8
    leozy2014  
    OP
       May 27, 2015
    @zhaoxiting1997 这都是具体细节算法了,另外dcma是啥嘛?
    zhaoxiting1997
        9
    zhaoxiting1997  
       May 27, 2015 via Android
    @leozy2014 数字千年版权法。美国vps收到DCMA版权投诉,核实后会封号
    gamecreating
        10
    gamecreating  
       May 27, 2015
    不用担心盗版..别人告你的时候 你已经赚HI了...你如果没赚钱 他也懒得告你...
    这就是中国现状.
    alp
        11
    alp  
       May 27, 2015   1
    @leozy2014 找到手机接口就可以了,为啥非要手机下载呢。之前弄过百度文库1.0的接口。不知道还能不能用
    leozy2014
        12
    leozy2014  
    OP
       May 27, 2015
    @alp 对哦,我那是笨办法嘛。
    wondervendor
        13
    wondervendor  
       Apr 18, 2016
    还不如直接共享这些账号
    About     Help     Advertise     Blog     API     FAQ     Solana     5569 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 41ms UTC 03:08 PVG 11:08 LAX 20:08 JFK 23:08
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86