刚学了 python 的基本语法,本人想爬淘宝的列表页到商品详情页,容易实现吗 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
imbo
V2EX    Python

刚学了 python 的基本语法,本人想爬淘宝的列表页到商品详情页,容易实现吗

  •  
  •   imbo 2015-09-23 18:42:54 +08:00 5255 次点击
    这是一个创建于 3676 天前的主题,其中的信息可能已经有所发展或是发生改变。
    菜鸟求指点
    14 条回复    2015-11-09 09:41:55 +08:00
    xiamingchong
        1
    xiamingchong  
       2015-09-23 19:58:02 +08:00
    容易
    imbo
        2
    imbo  
    OP
       2015-09-24 07:34:51 +08:00
    @xiamingchong 有 ip 限制吗
    TimePPT
        3
    TimePPT  
    PRO
       2015-09-24 19:04:33 +08:00
    @imbo 理论上网络建站的人都会做反爬机制,否则无数人无数爬虫爬不得把站拖垮了。越是大站越会。简单的限 UA ,稍微高级点的限 IP.

    所以好的爬虫一定是多 IP 并行爬取且会调整请求间隔。让你的爬虫爬取的动作越接近真实用户就越有可能成功爬取。
    imbo
        4
    imbo  
    OP
       2015-09-25 13:09:53 +08:00
    ClutchBear
        5
    ClutchBear  
       2015-09-25 15:26:44 +08:00

    用 firefox 的 firebug 查看元素,找到类似有 json 数据的链接,
    复制拷贝到地址栏就是淘宝商品列表的 json 格式的数据,
    直接分析就行.


    类似这样,可以得到 商品名称, 页面链接, 价格和店铺链接
    Reed
        6
    Reed  
       2015-09-28 18:45:40 +08:00
    爬起来挺容易的,难的是快点爬,越快越好。
    我爬过豆瓣,那么问题来了, IP 被封怎么办,好,上代理
    接着问题来了,代理质量太低,而且还是会被封,好,开线程
    接着问题又来了,速度还是起不来,后来我就爬了好像不到 2K 本书就放弃了。
    leetao102
        7
    leetao102  
       2015-09-29 00:19:51 +08:00
    @ClutchBear 小事一把。。我这里报错 sslv3


    <img node-type="image" style="position: absolute; left: 0px; top: 141px;" src=" " width="450" height="292" class=" ">
    ClutchBear
        8
    ClutchBear  
       2015-09-29 10:21:43 +08:00
    @leetao102 mac10.10 报错 ssl3 的话,
    我也被困扰了很久
    最后在 stack overflow 上找到解决办法了.


    根据 stackoverflow 大神的帖子,我试了很多方式,最终找到一个解决这个错误的方法.
    在 python 中加入以下语句即可.

    import requests.packages.urllib3.util.ssl_
    requests.packages.urllib3.util.ssl_.DEFAULT_CIPHERS = 'ALL'


    我写的解决办法的链接: http://playbear.github.io/2015/09/25/taobao-ssl3-error/
    alexinit
        9
    alexinit  
       2015-09-29 14:59:33 +08:00
    其实挺简单的,
    leetao102
        10
    leetao102  
       2015-09-29 22:35:49 +08:00
    @ClutchBear 太帅啦。。原来作者就是你啊。。
    leetao102
        11
    leetao102  
       2015-09-30 00:33:05 +08:00
    @ClutchBear 请问一下 淘宝这个 url : https://s.taobao.com/search?date-key=sort&data-value=price-desc&ajax=true& 我在 freebug 里面没有找到?您贴个图吗?谢谢
    ClutchBear
        12
    ClutchBear  
       2015-09-30 12:20:16 +08:00
    @leetao102 点网络,再点保持,然后不同排序试几次,比如按价格 销量什么的.
    就能找到了.
    leetao102
        13
    leetao102  
       2015-10-01 02:07:52 +08:00
    @ClutchBear 简单易懂...

    您也去做点视频吧。。讲讲吧。。
    xiamingchong
        14
    xiamingchong  
       2015-11-09 09:41:55 +08:00
    @imbo 除了 ip 限制,别的限制都可以伪装
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3966 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 05:20 PVG 13:20 LAX 22:20 JFK 01:20
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86