V2EX seoguess 的所有回复 第 1 页 / 共 3 页
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX    seoguess    全部回复第 1 页 / 共 3 页
回复总数  43
1  2  3  
2019-05-14 23:00:15 +08:00
回复了 zhuwd 创建的主题 程序员 三线小城的程序员如何实现财务自由?
@JohnLou 很多人只是冲着一个希望去的,只要有人忽悠,就会有人相信。嗯,论韭菜的个人修养。
2019-05-14 22:58:47 +08:00
回复了 zhuwd 创建的主题 程序员 三线小城的程序员如何实现财务自由?
@GrayLand119 人才
2019-05-14 22:57:49 +08:00
回复了 seoguess 创建的主题 程序员 求一份 MongoDB 安全配置
@nicolas0caser 收到,谢谢你!
2019-05-13 23:51:54 +08:00
回复了 seoguess 创建的主题 程序员 求一份 MongoDB 安全配置
@WordTian 原来如此,我理解错用法了。非常感谢!
2019-05-13 12:15:35 +08:00
回复了 seoguess 创建的主题 程序员 求一份 MongoDB 安全配置
net:
port: 27233
bindIp: 127.0.0.1,localhost,154.*.*.*

mongod.conf 启动时候没报错,但是就是不生效。
2019-05-13 12:14:34 +08:00
回复了 seoguess 创建的主题 程序员 求一份 MongoDB 安全配置
@nicolas0caser 你好,bindip 设置请教一下。
2019-05-13 11:50:22 +08:00
回复了 seoguess 创建的主题 程序员 求一份 MongoDB 安全配置
@WordTian 你好,请问设置过 bindip 同时绑定 locahost 跟外网本地 ip 吗?

net:
port: 27233
bindIp: 127.0.0.1,localhost,154.***.***.***

我设置成这个的时候,所有的 ip 都可以连接上去。如果删除了 154 开头的外网 ip,就只能本地连接数据库了。

服务器上 netstat -a |grep :27233 显示如下:

tcp 0 0 localhost:50822 localhost:27233 ESTABLISHED
tcp 0 0 localhost:27233 localhost:50818 ESTABLISHED
tcp 0 0 154.XXX.X.XXX:27233 116.XXX.X.XXX:60584 ESTABLISHED


请问我的设置哪里出现了问题?搞了一整天了没找到资料。或者我干脆放弃 bindip,从 iptables 下手可行?谢谢!
2019-04-26 23:13:06 +08:00
回复了 seoguess 创建的主题 Python Python 爬虫多线程问题咨询
原来 max_worker 为空的情况下,默认线程为 cpu 核数量*5,难怪花了 300+秒。
2019-04-26 22:56:20 +08:00
回复了 seoguess 创建的主题 Python Python 爬虫多线程问题咨询
@zy342500 谢谢,我以为放空的话就是没有限制。

max_workers=100,跑完用时 79 秒
max_workers=1000,跑完用时 49 秒
2019-04-26 10:16:22 +08:00
回复了 seoguess 创建的主题 Python Python 爬虫多线程问题咨询
@scriptB0y 我用 concurrent 模块重新修改了下代码,发现效率比我之前的代码差了好多....
for 循环: #获取 cookie:
threads = [ (i.get('hotelId'),headersCookie) for i in id_lines.find() ]
pool = ThreadPoolExecutor()
future_tasks = [ pool.submit(start_claw, t) for t in threads ]
wait(future_tasks, return_when=ALL_COMPLETED)

time.sleep(3)


3K 左右的链接,用时 382 秒

for 循环: #获取 cookie:
threads = []

for i in id_lines.find():
hotelId = i.get('hotelId')
threads.append(hotelId)


for hotelid in threads:
t = ClawData(hotelid,headersCookie)
t.setDaemon(True) #防止程序异常退出时,有僵尸进程存在
t.start()

for hotelid in threads:
t.join()

time.sleep(3)

用时:52 秒

请问为啥效率可以差别这么大?
2019-04-25 21:24:25 +08:00
回复了 seoguess 创建的主题 Python Python 爬虫多线程问题咨询
@Leigg 谢谢!如果我的 main 函数大致结构是:

for cookie in cookies: # 1、获取 N 个不同的生成的 cookie
for id in id_list: #2、获取不同的 id 来生成 url
t = threading.Thread(claw(cookie,id), args) # 3、多线程获取内容、入库、记录错误
t.start()


是不是逻辑上,我把第三步中的采集入库、记录错误上锁了,1、2 中对应的 cookie 跟 id 不会出现多线程引起的数据错乱?
201-04-25 19:43:34 +08:00
回复了 seoguess 创建的主题 Python Python 爬虫多线程问题咨询
@scriptB0y 谢谢!我研究一下。
2019-04-25 16:18:42 +08:00
回复了 seoguess 创建的主题 Python Python 爬虫多线程问题咨询
如果 for 循环加上加锁不安全的话,那么 Queue 队列应该如何应用?

非生产者消费者模式感觉太复杂了,抓取的类只需要传入 cookie 跟对应的 id 来生成 url。

或者我把 url 跟 cookie 变成一个 tuple,然后判断 not Queue.empty(),然后通过 for 循环 + Queue.get()多线程去抓取内容可行?

求解惑,谢谢!
2019-04-25 16:14:31 +08:00
回复了 leewlab 创建的主题 Python PySpider 如何合并长文章的内分页
加一个 if 判断,翻页 css、url 路径或者其他,然后循环获取所有的翻页内容,article += content
2016-11-15 19:16:07 +08:00
回复了 ldehai 创建的主题 程序员 想写一本全栈开发的书,问问大家的意见
这个真心不错, mark 。。。
2016-10-27 21:04:42 +08:00
回复了 geek123 创建的主题 程序员 hexo 搞了个博客,大家提提意见。
原来汇智网是你的?

在网站上看了 flask 跟 mysql 的课程,很给力。
2016-10-11 08:29:35 +08:00
回复了 PhilosophyKing 创建的主题 TensorFlow Python + TensorFlow 深度学习中文教程
已 star ,挑个时间好好看下你的视频。
2016-10-11 08:28:07 +08:00
回复了 dataman 创建的主题 推广 数人云|赠书,从容器的全世界路过
万一中了呢... 容器还没学习到呢...
2016-08-29 18:13:51 +08:00
回复了 twogoods 创建的主题 程序员 老师来电话了,心塞~
@zxb 你竟然没有在兰州拉面吃过盖浇饭?不是很普遍的吗?
1  2  3  
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1161 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 23ms UTC 17:57 PVG 01:57 LAX 10:57 JFK 13:57
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86