
本人正在做一个练手的爬虫项目,主要是用 flask 充当 selenium 爬虫的控制面板,初步渣代码如下:
from flask import Flask,render_template,request,redirect,url_for from Control import control ## selenium 的 class app = Flask(__name__) app.secret_key = 'dqwer235r*tbqew4r1$1232~@' test = control() ##启动后会启动两个 selenium 实例。。。 @app.route('/dashboard/',methods=['GET','POST']) def dashboard(): if request.method == 'GET': return render_template('dashboard.html') elif request.method == 'POST': if request.form['submit'] == 'Start': msg = 'Started.' qrSrc = test.qr() ## 返回 selenium 中获取的二维码链接 return render_template('dashboard.html',msg=msg,qrSrc=str(qrSrc)) else: msg = 'no' return render_template('dashboard.html',msg=msg) if __name__ == '__main__': app.run(host='0.0.0.0',port=80,debug=True) from selenium import webdriver import time class control: def __init__(self): self.driver = webdriver.Chrome() def qr(self): self.driver.get('http://example.com') time.sleep(2) qr_src = self.driver.find_element_by_id('js_login_qrcode_img').get_attribute('src') return qr_src ##扫描二维码登陆 if __name__ == '__main__': test = control() print(test.qr()) 想请教下如何实现 selenium 的持久化,即浏览器一直不关闭并且能接收 flask 传入的命令?感觉要把 flask 嵌入另一个 selenium 的 class 中,但我比较想把 flask 和爬虫两者分离。另外上面的代码会弄出两个浏览器实例,暂时未知道原因。。 谢谢大家 :)
selenium-RC这个看了下似乎是selenium 1启动webdriver的方式,standalone-server这条路看来走不通,现在卡在轮询是否已扫描二维码登陆这里。。 感觉要用协程或者subprocess来进行selenium状态的轮询,只是不知道会不会导致又启动一个新的浏览器实例。。
用tornado会不会好点?或者flask有没有关于这方面的库?
1 xuyl 2018-01-27 14:03:01 +08:00 这个时候就要用到 flask 的上下文机制了 |
2 1314258 2018-01-27 14:49:43 +08:00 via iPhone selenium 变成 http server,flask 发参数过去就可以了。 |
3 tbag781623489 OP |
4 zeq 2018-01-27 15:42:15 +08:00 两个实例的问题,你可以试一下 debug=False 或者 debug=True, use_reloader=False |
5 hareandlion 2018-01-27 15:46:37 +08:00 via iPhone 请问 selenium server 长期运行对硬件资源有限制吗?没看到这方面的资料 |
6 tbag781623489 OP @zeq 谢谢,的确是 debug=False 后变回一个实例了。 |