开发了个小号的今日头条,并附上开发思路(言说内容推荐引擎 0.2 版本上线) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
wyan453351466
V2EX    程序员

开发了个小号的今日头条,并附上开发思路(言说内容推荐引擎 0.2 版本上线)

  •  
  •   wyan453351466 2017-12-05 10:37:56 +08:00 3032 次点击
    这是一个创建于 2870 天前的主题,其中的信息可能已经有所发展或是发生改变。

    详情戳链接:www.yanshuo.me

    0.1 版本的推荐方式,是基于原始内容的热度进行推荐的。但是这样做出来的效果感觉并不是很好。

    因为判断一个内容受欢迎的程度,不应该只考虑点赞次数或是点击次数,还要考虑展示次数的问题。

    举例来说,一个帖子点击次数是 100,展示次数是 200 ;另一个帖子点击次数是 10,展示次数是 11。从点击率的角度来判断,后者受欢迎的程度是高于前者的。

    开发思路戳链接(只是一个开发过程中打的草稿,最终开发出来的效果并不是严格按照该图片的) : https://i.loli.net/2017/12/05/5a2600e4cbd11.png

    现在的推荐是没有个性化的(目前用户量和数据量太小),可以说是很弱智的推荐了(大神轻喷)。

    最后请允许我强行解释一波,其实非个性化的推荐,比个性化要有一个好处,就是可以让你更多维度的去浏览信息,而不是只浏览符合自己口味的信息。

    欢迎大家讨论,和给出你的建议

    另外自己建了一个程序员交流群,欢迎大家加群讨论:566806792

    4 条回复    2017-12-05 11:52:30 +08:00
    antintern
        1
    antintern  
       2017-12-05 11:38:31 +08:00
    个性化可以用协同过滤 非个性化用 pagerank~
    nullcoder
        2
    nullcoder  
       2017-12-05 11:47:05 +08:00
    只是通过点击判断内容质量,明显是助长标题党的情况。
    被援引的次数 /比例或者转发比率,信源等维度应该更能描述内容质量

    另一方面,推荐的如果都是刷屏 /热搜的内容,大概推荐的意义也不大
    所以可能还是得加一些个性化权重
    wyan453351466
        3
    wyan453351466  
    OP
       2017-12-05 11:49:35 +08:00
    @antintern 嗯,pagerank 好像是搜索引擎经常用的一种算法。回头研究下。协同过滤的话,这个需要大量的用户数据和帖子数据才可以玩起来,否则体验不是很好。(之前试过订阅话题的方式,效果不太好,个性化这个需要做的工作太多了)

    要多维度的去推荐内容,保持内容的丰富度、热度,同时还要考虑个性化,以及推荐一定数量的冷门内容。想把这个系统做好,难度是挺高的
    wyan453351466
        4
    wyan453351466  
    OP
       2017-12-05 11:52:30 +08:00
    @nullcoder 对,现在为了防止只根据点击助长标题党的内容。我用的方式是,每次推荐 7 条不同话题的内容(根据不同的数据源、作者、关键字区分话题)。如果只根据点击,出现的内容基本上全都是标题党、搞笑、故事会这种了。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5632 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 38ms UTC 06:32 PVG 14:32 LAX 23:32 JFK 02:32
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86