
程序员相亲的公众号最近也挺多的,但是因为微信平台的原因
导致无法搜索,不能更快的寻找需要的信息...
所以做了一个聚合 N 个相亲公众号信息的网站 https://xunta.today
网站名字叫 XUNTA

目前只汇总以下公众号的文章
如果还有新的公众号也提供相亲信息的话 欢迎邮件告诉我
上面那几个还是发朋友圈问来的

通过爬虫定期去爬取以上公众号的文章,下载网页源代码就好了
然后把源代码丢到pelican 里面
再放到 github 上面
源代码在:https://github.com/xunta-today/website
爬虫的没有公开,主要怕公开了微信限制接口,后面增加工作量,有需要可以邮件我.
碰到的问题
使用 nginx 转发一下就可以了,当然需要先把图片域名改成你的
如下
location /mmbiz{ proxy_set_header referer "https://mp.weixin.qq.com"; proxy_set_header origin "https://mp.weixin.qq.com"; proxy_set_header user-agent "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"; rewrite /(.+)$ /$1 break; proxy_pass http://mmbiz.qpic.cn; } location /mp{ proxy_set_header referer "https://mp.weixin.qq.com"; proxy_set_header origin "https://mp.weixin.qq.com"; proxy_set_header user-agent "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"; rewrite /(.+)$ /$1 break; proxy_pass https://mp.weixin.qq.com; } 用的是 tipue_search

显示结果有点辣眼睛
因为源代码里面太多乱七八糟的东西了,所以我直接在创建搜索的时候,只保留了文章中的中文内容,其他全部去掉了...
直接用 site:xunta.today 加上你要搜索的内容 搜索

爬虫会每天更新一次
公众号也会每周汇总一次,有人有兴趣一起参与的话欢迎邮件我,(不限于讨论,排版,等等...)
如果你觉得某篇文章有冒犯你,请直接邮件我 并且带上链接!
有好的建议也欢迎邮件!
删除一些不相关文章的时候发现的。。。
