腾讯漫画爬虫........ - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
justtery
V2EX    分享创造

腾讯漫画爬虫........

  •  
  •   justtery 2017-04-20 09:45:35 +08:00 6069 次点击
    这是一个创建于 3174 天前的主题,其中的信息可能已经有所发展或是发生改变。

    上周周末写了一个腾讯漫画的爬虫....

    现在已经有的功能:

    1.查找漫画

    2.查找出漫画的总章节数目

    3.下载单话漫画

    4.下载所有章节漫画(免费的括号笑)

    目前存在的问题:

    1.多线程下存在卡死或假死的状态(这块我是真的搞不懂了)

    跪求大佬们教育,为什么会出现多线程下爬虫不爬了的情况啊 昨天我加了请求超时时间也还是会出现这种状况(昨天的修改没有上传 github)

    代码地址:https://github.com/Fretice/Tencent_Cartoon_Download

    注:请忽略 readme 文件中的内容,因为好多都写错了 /(ㄒoㄒ)/~~

    第 1 条附言    2017-04-21 09:47:45 +08:00
    感谢大家的回复,也知道了自己的问题所在:

    1. 命名规则不规范:如项目名称..当然我在 code 中的变量与方法名的命名规则上还是相对规范的

    2.打包有问题,不应该上传 venv...写个 requirements.txt 就好

    感谢各位前辈的指导,我一定会改正这些问题的.
    26 条回复    2017-04-21 10:09:32 +08:00
    nanlong
        1
    nanlong  
       2017-04-20 11:45:23 +08:00
    还没见过这么打包 python 项目的,你是第一个
    justtery
        2
    justtery  
    OP
       2017-04-20 11:52:25 +08:00
    @nanlong 还有更多的 要不要看
    strwei
        3
    strwei  
       2017-04-20 12:00:54 +08:00
    @nanlong hello
    zhihaofans
        4
    zhihaofans  
       2017-04-20 12:17:09 +08:00 via iPhone
    cartoon 是动画,漫画是 comic 。。。
    zhihaofans
        5
    zhihaofans  
       2017-04-20 12:19:30 +08:00 via iPhone
    https://ooo.0o0.ooo/2017/04/20/58f836c6e9bbe.png
    xvx
        6
    xvx  
       2017-04-20 13:29:17 +08:00 via Android
    腾讯卡通下载
    ty89
        7
    ty89  
       2017-04-20 13:47:15 +08:00   2
    驼_峰_加_下_划_线_的_命_名_也_是_少_见
    zhihaofans
        8
    zhihaofans  
       2017-04-20 13:51:57 +08:00 via iPhone
    @ty89 →PHP
    Marfal
        9
    Marfal  
       2017-04-20 14:04:01 +08:00
    .gitignore 老哥
    Marfal
        10
    Marfal  
       2017-04-20 14:05:25 +08:00
    @ty89 Tuó _Fēng _Jiā _Xià _Huá _Xiàn _De _Mìng _Míng _Yě _Shì _Shǎo _Jiàn
    justtery
        11
    justtery  
    OP
       2017-04-20 14:14:08 +08:00 via Android
    你们开心就好 注意哦,那只是个项目名称,注意看文件文件名称,更给力的说
    55555
        12
    55555  
       2017-04-20 15:26:27 +08:00
    以前有人这么干过 不过他是付费的都有了 然后被腾讯直接警告了
    zhihaofans
        13
    zhihaofans  
       2017-04-20 16:11:22 +08:00 via iPhone
    不是很懂 venv 目录下的是干嘛的,依赖?
    golmic
        14
    golmic  
       2017-04-20 16:17:22 +08:00 via Android
    irory
        15
    irory  
       2017-04-20 17:03:01 +08:00
    和 LS 一样之前爬取过 qq 漫画 . 不过我只爬了海贼王的 . 共勉 http://irory.me/blog/8
    justtery
        16
    justtery  
    OP
       2017-04-20 17:37:35 +08:00
    @irory 素在下之言...你这个效率应该不会高吧.....(说的好像我这个效率高一样)
    irory
        17
    irory  
       2017-04-20 17:57:08 +08:00
    @justtery 多开几个 worker 跑下来还行 .. phantoms 这个的确有点慢了 .
    lauix
        18
    lauix  
       2017-04-20 18:23:12 +08:00
    love4taylor
        19
    love4taylor  
    PRO
       2017-04-20 18:35:27 +08:00
    中国惊奇先生...... 没有 .gitignore 啊
    justtery
        20
    justtery  
    OP
       2017-04-20 19:59:32 +08:00 via Android
    @Love4Taylor 那个只是一个测试。。请忽略
    xuyl
        21
    xuyl  
       2017-04-20 23:38:09 +08:00
    这种打包方式确实奇葩,你搞个 requirements.txt 不就行了?
    visylar
        22
    visylar  
       2017-04-20 23:49:43 +08:00
    pic_list_download 作为一个 shared variable 传入 13 个线程如果没有注意 atomic access ,应该会有很多 race condition ,所以会卡死或假死
    RqPS6rhmP3Nyn3Tm
        23
    RqPS6rhmP3Nyn3Tm  
       2017-04-21 04:34:34 +08:00 via iPhone
    我当年也写过一个差不多的,不过你这打包方式真的奇特
    justtery
        24
    justtery  
    OP
       2017-04-21 08:12:42 +08:00 via Android
    @visylar 大佬能不能详细的给小弟讲一下
    MyFaith
        25
    MyFaith  
       2017-04-21 08:55:06 +08:00
    看了一眼 venv 目录,还是不 star 了。
    Ixizi
        26
    Ixizi  
       2017-04-21 10:09:32 +08:00
    hhhhhhhh 厉害了 我的哥
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     828 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 21:03 PVG 05:03 LAX 13:03 JFK 16:03
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86