去年国庆的时候,因为感觉到有点闷闷不乐,发现网上点段子看可以祛除这种感觉。由于找到的站点,满屏的广告,实在很损体验。当然人家也是需要付服务器和带宽费用。业余也写过一些软件,桌面的,后端的。所以一股气撸了一个。目前还没有泄气,也找到让自己有激情的点和觉得它有价值的点,也会继续完善。9xiaoxiao.com , 真诚想听听 v 友们的意见。后期我计划是用机器学习分析爬取到搞笑的视频和图文素材,做到让访客就笑笑。
![]() | 1 duola 2019-08-22 02:10:07 +08:00 你是怎么解决存储和 CDN 的问题呢? |
![]() | 2 CEBBCAT 2019-08-22 03:02:32 +08:00 via Android 我有一个煎蛋不知道该不该发,怕把你降维了 另外机器学习加爬虫……不怕被告? |
![]() | 3 peterpei 2019-08-22 06:14:04 +08:00 via Android 先看看如何处理擦边球图片吧。。。我的 ip 还被图床记录了,淦  |
4 thinkstream 2019-08-22 09:06:15 +08:00 via iPhone @duola 本质上是成本问题。流量问题是渐进的,比如 10Mb,100Mb 一个个台阶逐步踏进。存储问题就会造成和规模不匹配的成本。4chan 采取的策略是删除,不会产生大量累积存储。目前采用的策略,现在的厂商提供的免费额度还够用,进一步也可以用家里的个人电脑来降低存储。同时也可以线上只存储新的内容,长尾的删除,然后硬盘保存。利用中继来覆盖这部分请求。 |
5 thinkstream 2019-08-22 09:16:04 +08:00 via iPhone @CEBBCAT 原来是煎蛋的作者,久仰,望多交流。内容主要是原创度低传播度高的内容,这部分的法律风险,也会咨询律师朋友。定位也是社区,机器学习放在辅助的地位 |
![]() | 6 Reficul 2019-08-22 09:40:53 +08:00 看标题还以为是 B 站的标语换了呢,“生产快乐的地方” |
![]() | 7 binz103 OP @peterpei 已经处理了。目前已有图文的标准,会先审核后发布。重复的内容以及被关键词识别到的内容是自动屏蔽的。更好的方案在考虑中。 |
![]() | 8 CEBBCAT 2019-08-22 10:43:56 +08:00 @thinkstream #4 啊?我不是煎蛋作者,只是一个普通蛋友啦 |