老板叫我人肉手工爬新浪微博

This topic created in 3707 days ago, the information mentioned may be changed or developed.

http://weibo.com/p/1001018008644010000000000/checkin?page=4#Pl_Core_F4RightUserList__34 这个网址，显示的是在在广州这里签到过的人。老板想一个个把名字复制下来。我不知道怎么爬。只是找到把网页源代码复制下来然后用正则表达式选出来。但是一次性只能选 10 个人，效率好低啊。谁知道怎么解放双手么？

img

复制

老板

src

39 replies 2016-04-02 01:57:33 +08:00

chens

Apr 1, 2016

运的一手好营~

ioriwong

Apr 1, 2016 via Android

我建议慢慢手工爬，这么爽拿工资的方式，实在难得

zymmm2

Apr 1, 2016 via iPhone

Import.io

herozzm

Apr 1, 2016

请问你的职位称呼？

zythum

Apr 1, 2016

网页源代码复制表达式选出来 10 个人。你把这步骤写成自动化的不就好了....

icedx

Apr 1, 2016

http://weibo.com/p/1001018008644010000000000/checkin?pids=Pl_Core_F4RightUserList__34&page=5&ajaxpagelet=1&ajaxpagelet_v6=1&__ref=/p/1001018008644010000000000/checkin&_t=FM_145948418415511

royzheng

Apr 1, 2016

找个下载器批量下载页面下来再分析正则 done

ebony0319

Apr 1, 2016 via Android

@herozzm 严格来说，这是运营的工作，但是现在运营走了。只能抓我当壮丁。

ebony0319

Apr 1, 2016

@icedx 这是什么是啊。点进去什么都没有

kliy

Apr 1, 2016

@ebony0319 审核一下网页

xjchenhao

Apr 1, 2016

我用 node 爬过类似的, 你会 node 吗?

Tuccuay

Apr 1, 2016

http://open.weibo.com/wiki/2/place/pois/users

明明有接口为什么大家都想着去抓呢....这是为什么呢....

marcolee

Apr 1, 2016

不能直接爬，要先拿到 cookie ，请求时要带上 cookie 。因为他的 html 都是用 js 来生成的，所以要用 phantomjs 来解析。

ebony0319

Apr 1, 2016

@Tuccuay 已经提交，再等待审核，现在有更快的方法么？

Tuccuay

Apr 1, 2016

@ebony0319 你自己用不需要审核的....直接创建出来就能用....

wubotao

Apr 1, 2016

用 Python 爬一下网页不可以么，就是把手工的过程改成自动了。

icedx

Apr 1, 2016

@ebony0319
看不见咩? 那就是你没有灵根咯

thinkmore

Apr 1, 2016

正则没写好

ebony0319

Apr 1, 2016 via Android

@icedx 我看到你的东西了，主要是有这么多，就是几千页都信息怎么自动保持下来。

vidli2ex

Apr 1, 2016

愿意付费的话，私信我。

prccn

Apr 1, 2016

叫老板开双份薪水：运营 + 爬手

xshf12345

Apr 1, 2016

python 写

FUCKEX2

Apr 1, 2016

愿意付费的话，私信我。 C++写~ so easy

lazarus

Apr 1, 2016

LZ 不是码农？
python 写个脚本简直分分钟啊

ebony0319

Apr 1, 2016 via Android

@vidli2ex
@FUCKEX2
@lazarus 可以哟，报价吧。

popok

Apr 1, 2016

@Tuccuay 大概看了下，这个广州好像是类似一个分类的大目录，没有具体的 poiid 的，这个 API 只能通过具体的 poiid 获取签到的列表，而且有频率限制。
虽然 api 方便简单，但是这里直接爬页面其实也不错的

binux

Apr 1, 2016

既然老板让你手动抓的，他还付你工资。。。
那你就一天写个自动的，然后说我一个月都在手动抓

ebony0319

Apr 1, 2016 via Android

@lazarus 在去年出车祸之前我还会 c ， c++， lua ， JAVA ……然后什么都很模糊了，记忆一些东西很困难。但是现在还是能够看得懂一些你们写的东西，谈论的一些话题。

4679kun

Apr 1, 2016

@ebony0319 神转进(Д`)

techmoe

Apr 1, 2016

python 应该分分钟解决

啊如果付费明天我看下好了，正好这几天放假学生党赚点零花钱也不错 w

horizon

Apr 1, 2016

@ebony0319 哈哈哈，今日最佳

lazarus

Apr 1, 2016

@ebony0319 粗略写了下，需要把里面的 YOUR_COOKIE 替换成你的 cookie ：
##################################
import requests, re, time

headers={
'Cookie': YOUR_COOKIE
}
base_url = 'http://weibo.com/p/1001018008644010000000000/checkin?page=%s'

def append_to_file(text, filename):
with open(filename, 'a') as f:
f.write(text)

def get_page(page):
r = requests.get(base_url % page, headers=headers)
print r.text.encode('utf-8')
return '\n'.join([x.encode('utf-8') for x in re.findall('<strong usercard=\\\\"[^"]+" >([^<]+)<\\\\/strong>', r.text)])

sleep_interval = 5
for p in xrange(1, 35612):
nicks = get_page(p)
retry_count = 0
while len(nicks) == 0:
retry_count += 1
time.sleep(retry_count * sleep_interval)
nicks = get_page(p)
append_to_file(nicks, 'data/nicks.txt')

##################################

weibo 有限流措施，懒得去研究怎么突破了，就用了最简单的 sleep + retry ，就放着慢慢跑就是了
如果需要我来帮你跑，回复我吧

lazarus

Apr 1, 2016

呃，代码缩进乱掉了

ebony0319

Apr 1, 2016 via Android

@lazarus 厉害哇。

ebony0319

Apr 1, 2016 via Android

@4679kun
@horizon 那时候晚上十点样子，一个女司机跟他老公在沿江大道试新车，结果把自己给撞死了，老公为了防止后面的车来就去拦车，大货车拦不住直接就撞死了。不知道哪个智商低的把那种木粱横在路上拦车，我发现的时候已经只有三米了。煞不住了，直接飞出去了。后面接连发生了几十起车祸，第四位后脑勺直接消去四分之一。
重点来了，深夜不要点图，不要点图，不要点图。当时的车祸拍照。 https://ssl.moefq.com/image/LqgCh

ebony0319

Apr 1, 2016 via Android

@lazarus 我可不可以厚颜无耻的请求你直接把一万个 id 发给我哇。

lazarus

Apr 2, 2016

@ebony0319 不好意思，这个只是示意行的代码，还是很简陋，我刚刚跑了下发现 111 页往后的内容获取不到了，暂时没时间去深究了

WhyLiam

Apr 2, 2016

火车头，妥妥的

wjfz

Apr 2, 2016 via Android

@ebony0319
卧槽，真事儿啊。