花了两天的时间,写出了一个内容推荐引擎(一个面向程序员和极客的今日头条) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
wyan453351466
V2EX    程序员

花了两天的时间,写出了一个内容推荐引擎(一个面向程序员和极客的今日头条)

  •  
  •   wyan453351466 2017-10-11 10:49:37 +08:00 7872 次点击
    这是一个创建于 2929 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大家好。。我言说的站长。

    这次我给网站开发了一个简易的内容推荐引擎。

    详情戳链接: www.yanshuo.me

    最初的言说首页,内容是按照时间排序的,大概每 10 分钟会推荐一条热门内容。

    现在加入了推荐算法,每次刷新会推荐不同的内容。

    本次推荐算法主要想实现的效果是,每次推荐的内容,既要保证内容的质量,还要保证内容的多样性,以及热度。

    不过现在由于用户数据不够多等的原因,推荐的内容还不够智能化。待优化的地方还有很多!

    希望大家在评论区给出您的意见,和大家用过的推荐算法。

    对爬虫和推荐算法感兴趣的同学,欢迎加群:566806792

    47 条回复    2018-04-27 10:43:08 +08:00
    hanangellove
        1
    hanangellove  
       2017-10-11 11:50:39 +08:00
    赞一个~
    wwdyy
        2
    wwdyy  
       2017-10-11 11:56:40 +08:00
    用的什么语言?
    wyan453351466
        3
    wyan453351466  
    OP
       2017-10-11 12:23:03 +08:00 via iPhone
    @wwdyy php
    shoumu
        4
    shoumu  
       2017-10-11 12:23:13 +08:00
    推荐算法是什么样的,详细说说?
    slince
        5
    slince  
       2017-10-11 12:47:06 +08:00
    楼上加一
    noNOno
        6
    noNOno  
       2017-10-11 13:00:27 +08:00
    楼上+1
    azh7138m
        7
    azh7138m  
       2017-10-11 13:13:12 +08:00
    粉色店、黑金店、LAB 概念店……喜茶的空间设计你学不会!
    还有 B 站&张大妈&知乎
    哪里程序员或者极客了......
    azh7138m
        8
    azh7138m  
       2017-10-11 13:14:39 +08:00
    建议好好做妹子图,这个是肛需:)
    andyiac
        9
    andyiac  
       2017-10-11 13:17:13 +08:00
    发现这个网站有一段儿时间了
    wyan453351466
        10
    wyan453351466  
    OP
       2017-10-11 13:50:11 +08:00 via iPhone
    @azh7138m 张大妈是什么。。现在推荐算法还不成熟。。可能会出现不相关内容。。多刷新几次试试
    SaltedFish12138
        11
    SaltedFish12138  
       2017-10-11 13:57:10 +08:00
    楼主抓煎蛋的妹子图,还没有说明..........这不好吧.
    azh7138m
        12
    azh7138m  
       2017-10-11 14:05:47 +08:00
    @wyan453351466 smzdm,一般我考虑过滤到微信的链接,或者让我扫码看微信的,文章质量大幅度提升,或者你直接抓 readhub 的 api 也行
    Chappako
        13
    Chappako  
       2017-10-11 14:11:27 +08:00
    那你也说说你的推荐算法啊
    Antidictator
        14
    Antidictator  
       2017-10-11 14:11:38 +08:00
    Chamber 都爬,调皮
    SoulGem
        15
    SoulGem  
       2017-10-11 14:18:19 +08:00
    这个之前就有在关注啊,看你的知乎热门还挺有趣
    zpvip
        16
    zpvip  
       2017-10-11 15:04:13 +08:00
    算法都不说,你这是炫耀吗?
    wyan453351466
        17
    wyan453351466  
    OP
       2017-10-11 16:11:20 +08:00
    @shoumu
    @slince
    @noNOno
    @zpvip

    目前的推荐引擎是基于内容的推荐。
    首先要对所有的元数据有一个建模,哪些是科技资讯,哪些是编程类的,哪些是娱乐类的。然后每次推荐时会抽取 10 几条不同类别的内容,进行评分并排序(评分的维度有,用户以往的访问习惯、内容的浏览数、赞数)。抽取评分较高的排在首位,并删除评分最低的后几条。

    现在用户数据不够多的情况下是用的这种方式。更科学的方式可能应该是基于用户的协同过滤推荐等方式(但是需要一定的用户数据才可以玩起来)。

    更详细的算法大家可以看这篇文章:
    https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html?ca=drs-

    现在的推荐引擎还很糙。。我也只用到了这篇文章中的一小部分思想。更多的大家可以互相探讨。
    hjdtl
        18
    hjdtl  
       2017-10-11 17:03:44 +08:00
    两天包括页面搭建吗?厉害了。。。
    oukichi
        19
    oukichi  
       2017-10-11 17:06:54 +08:00
    楼主帅呆了,这个风格很喜欢。
    zonzin
        20
    zonzin  
       2017-10-11 17:17:42 +08:00
    这不是死了的 DIGG 吗
    wyan453351466
        21
    wyan453351466  
    OP
       2017-10-11 18:03:42 +08:00
    @oukichi 谢谢!
    wyan453351466
        22
    wyan453351466  
    OP
       2017-10-11 18:04:13 +08:00
    @hjdtl 两天不包括页面。。页面得两个月还差不多。。
    xsliang
        23
    xsliang  
       2017-10-11 18:09:33 +08:00
    不错 加群学习下
    gamecreating
        24
    gamecreating  
       2017-10-11 18:29:41 +08:00
    采集搜狗的微信文章吗?
    wyan453351466
        25
    wyan453351466  
    OP
       2017-10-11 18:35:33 +08:00
    @gamecreating 采集的清博数据
    Tairy
        26
    Tairy  
       2017-10-11 18:39:07 +08:00
    刷妹子图的时候被老板看到了
    Tunar
        27
    Tunar  
       2017-10-11 18:39:42 +08:00 via Android
    @Tairy 然后
    Tairy
        28
    Tairy  
       2017-10-11 18:40:14 +08:00
    @Tunar 自觉关了
    joeke
        29
    joeke  
       2017-10-11 19:00:17 +08:00
    厉害厉害,这爬的哪里的数据,貌似什么都有,五花八门的
    only0jac
        30
    only0jac  
       2017-10-11 19:21:33 +08:00 via Android
    ui 做的相当舒服,请教楼主怎么弄的?
    rogwan
        31
    rogwan  
       2017-10-11 19:37:41 +08:00 via Android
    这是小号的今日头条嘛
    wyan453351466
        32
    wyan453351466  
    OP
       2017-10-11 19:56:17 +08:00 via iPhone
    @only0jac 就是用 bootstrap 改的。。
    wyan453351466
        33
    wyan453351466  
    OP
       2017-10-11 19:56:57 +08:00 via iPhone
    @rogwan 哈哈。被发现了
    wyan453351466
        34
    wyan453351466  
    OP
       2017-10-11 20:00:21 +08:00 via iPhone
    @joeke 妹子图吗?妹子图是爬的煎蛋网
    unique
        35
    unique  
       2017-10-11 20:05:29 +08:00 via iPhone
    很强,支持一下
    wyan453351466
        36
    wyan453351466  
    OP
       2017-10-11 21:38:40 +08:00 via iPhone
    @unique 谢谢!
    carlclone
        37
    carlclone  
       2017-10-11 21:57:37 +08:00 via Android
    厉害
    shitailongshenxu
        38
    shitailongshenxu  
       2017-10-11 23:48:26 +08:00
    很不错哦,能共享下源码吗
    davidqw
        39
    davidqw  
       2017-10-12 01:47:17 +08:00
    妹子图,一股清流啊... 有种回到 2000 年互联网的既视感
    Rootcat
        40
    Rootcat  
       2017-10-12 16:47:38 +08:00
    必须赞一个,这是本土化的 Reddit !!!
    建议开发 APP,移动端是主流了,PC 端用户有限。
    是个人开发的还是团队呢?
    备案信息是豫字,河南老乡啊
    wyan453351466
        41
    wyan453351466  
    OP
       2017-10-12 18:12:29 +08:00
    @Rootcat 是个人开发的哈。。对,河南老乡。哈哈。

    关于 APP 的事情,我也一直想搞。但无奈我本行一直是做 web 端的。APP 不是我的擅长。。
    这个未来看能不能找到有缘人,或者自己业余学习类似 react 这种技术来实现吧。(原生写的话实现成本对于我这个外行来说比较高,而且还得写两套)
    huangfs
        42
    huangfs  
       2017-10-12 21:02:55 +08:00
    开源地址?
    slince
        43
    slince  
       2017-10-13 21:17:36 +08:00
    风格很喜欢,后端是 php 啥框架做的
    dreamin
        44
    dreamin  
       2017-10-24 21:57:46 +08:00
    后端是 thinkphp ?
    wyan453351466
        45
    wyan453351466  
    OP
       2017-10-27 09:23:27 +08:00
    @dreamin 怎么看出来的
    qianmeng
        46
    qianmeng  
       2017-11-01 15:44:09 +08:00 via Android
    最近一段时间也迷上了 reddit,在 github 上面找代码看了很多。我也注册了言说,不过感觉还是机器爬取的内容质量更好
    susucoolsama
        47
    susucoolsama  
       2018-04-27 10:43:08 +08:00
    赞一个,2 天用 tp 写的就很了。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     871 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 21:23 PVG 05:23 LAX 14:23 JFK 17:23
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86