求一个同时抓取多个文件的办法. - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
qiuai
V2EX    PHP

求一个同时抓取多个文件的办法.

  •  
  •   qiuai
    PRO
    Jun 8, 2013 5371 views
    This topic created in 4716 days ago, the information mentioned may be changed or developed.
    现在有5台服务器,每台服务器上有一个探针,每个探针执行时间约5秒.
    如果挨个抓,就需要25秒.
    有什么办法能够同时去抓这5台服务器的探针呢? 把时间缩短到5秒.
    Supplement 1    Jun 8, 2013
    已经成功实现了.用了 PHP - spider 框架 的 HttpClient...
    感谢大家的帮助...
    23 replies    1970-01-01 08:00:00 +08:00
    tension
        1
    tension  
       Jun 8, 2013
    写缓存
    qiuai
        2
    qiuai  
    OP
    PRO
       Jun 8, 2013
    @tension 每台服务器上都有缓存.但是是要激活才会有.总不能为了个不知道什么时候会看一次的信息列表去每分钟执行一次缓存吧...
    swulling
        3
    swulling  
       Jun 8, 2013
    并行抓啊,多线程
    likexian
        4
    likexian  
       Jun 8, 2013
    多线程,用python吧,相当简单
    qiuai
        5
    qiuai  
    OP
    PRO
       Jun 8, 2013
    @swulling PHP有多线程的办法?
    @likexian =.=不会python.
    blacked
        6
    blacked  
       Jun 8, 2013
    PHP CURL 并发 就可以了
    txlty
        7
    txlty  
       Jun 8, 2013
    1. 连续5次调用自身文件,每次调用指向不同探针,然后汇总
    2. 用curl异步抓取。curl_multi_init()
    qiuai
        8
    qiuai  
    OP
    PRO
       Jun 8, 2013
    lyjyiran
        9
    lyjyiran  
       Jun 8, 2013
    并行抓取不需要多线程, 用stream里的nonblock和select做就可以

    或者可以试试这个 https://github.com/hightman/pspider
    qiuai
        10
    qiuai  
    OP
    PRO
       Jun 8, 2013
    @lyjyiran 谢谢~我看看~~
    txlty
        11
    txlty  
       Jun 8, 2013
    <?php
    $t=array();$ch=array();
    $t[]='http://www.baidu.com'; //探针1
    $t[]='http://www.sogou.com'; //探针2
    $t[]='http://www.yodao.com'; //探针3
    $t[]='http://www.baidu.com'; //探针4
    $t[]='http://www.sogou.com'; //探针5
    for($i=0;$i<5;$i++){
    $ch[$i] = curl_init();
    curl_setopt($ch[$i], CURLOPT_URL, $t[$i]);
    curl_setopt($ch[$i], CURLOPT_HEADER, 0);
    curl_setopt($ch[$i], CURLOPT_RETURNTRANSFER, 0);

    }
    $mh = curl_multi_init();
    for($i=0;$i<5;$i++){
    curl_multi_add_handle($mh,$ch[$i]);
    }
    $running=null;
    do {
    usleep(10000);
    $result.= curl_multi_exec($mh,$running);
    } while ($running > 0);
    echo $result;
    ?>
    alsotang
        12
    alsotang  
       Jun 8, 2013
    异步抓或者多线程啊。
    qiuai
        13
    qiuai  
    OP
    PRO
       Jun 8, 2013
    @txlty 这个....一万次?
    @alsotang 就是不知道怎么实现...
    fmfsaisai
        14
    fmfsaisai  
       Jun 8, 2013
    @qiuai 忍不住吐个槽,人家好心连代码都帮你实现了,你好歹认真读一下人家的代码吧
    usleep(10000);你可以去看看手册usleep这个函数是干什么用的
    直接上来一句就“一万次”....真是让人感觉无力。。。
    qiuai
        15
    qiuai  
    OP
    PRO
       Jun 8, 2013
    @fmfsaisai =.=sorry.我之前百度的时候看到了一段跟这个差不多的代码.介绍里说是执行了一万次什么的...我PHP只是入门...

    @txlty 对不起...我马上去测试一下...谢谢.
    darasion
        16
    darasion  
       Jun 8, 2013
    php 有多进程.

    比如:
    pcntl_fork();
    http://www.php.net/manual/en/function.pcntl-fork.php

    另外楼上各种办法基本都可以试试。
    qiuai
        17
    qiuai  
    OP
    PRO
       Jun 8, 2013
    @darasion 嗯.好的...我正在测试 @txlty 的方法中
    fmfsaisai
        18
    fmfsaisai  
       Jun 8, 2013
    @qiuai 这段代码对于你的需求来说应该还是有点问题的,如果还没发现,建议可以修改一下usleep的数值,比如改成0;
    qiuai
        19
    qiuai  
    OP
    PRO
       Jun 8, 2013
    @fmfsaisai 执行以后出现了一些多余的数字.-1-1-1-1-1-1-1-1-1-100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000-100-100000-100-10
    qiuai
        20
    qiuai  
    OP
    PRO
       Jun 8, 2013
    @fmfsaisai 改成0也是会有很多不知道是什么意思的数字...
    fmfsaisai
        21
    fmfsaisai  
       Jun 8, 2013
    @qiuai
    建议你先读读官方手册,result返回的只是一个状态码
    http://php.net/manual/en/function.curl-multi-exec.php

    如果想要获取返回的结果,(在所有exec执行完毕以后)要用
    http://www.php.net/manual/en/function.curl-multi-getcontent.php

    参数就用代码里循环的那个$ch[$i]
    for($i=0;$i<5;$i++){
    echo curl_multi_getcontent($ch[$i]);
    }

    usleep改成0就是减少阻塞时间,对结果没有任何影响。
    7sj525bL0Wy7FOx9
        22
    7sj525bL0Wy7FOx9  
       Jun 8, 2013
    @qiuai 伸手党啊,多看看代码内容,自己测试下是哪里出的数字,再去看是哪个函数,再看看这个函数是什么用途,返回值等等,而不是等着别人回答啊亲,要自己多分析。
    qiuai
        23
    qiuai  
    OP
    PRO
       Jun 8, 2013
    @fmfsaisai @LionXen 知道了.我先去研究研究...
    About     Help     Advertise     Blog     API     FAQ     Solana     1153 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 56ms UTC 23:16 PVG 07:16 LAX 16:16 JFK 19:16
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86