词频辅助阅读,一个想法的验证 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
josherich
V2EX    分享创造

词频辅助阅读,一个想法的验证

  •  
  •   josherich
    josherich 2019-10-15 11:48:05 +08:00 2826 次点击
    这是一个创建于 2193 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://josherich.github.io/gradient-reader/

    分享一个验证想法的 demo,主要功能是根据词频在文字背后加入对应的灰度

    这里有几点可以探索的地方:

    • 词频词典的质量对效果影响很大

    • 词频辅助在多大程度上有助于阅读,或者说,有助于阅读某种类型的文字

    • 结合 name entity 和 POS tagger 是否有更好的效果

    第 1 条附言    2019-10-19 01:00:23 +08:00
    2019.10.18 增加了英语支持,英语词频词典来自 wikipedia 词频统计,去掉了词频小于 5 的长尾
    9 条回复    2019-10-18 15:22:55 +08:00
    est
        1
    est  
       2019-10-15 12:06:12 +08:00
    我打开就看到一个 textarea 一段文本。我漏掉了什么吗?
    josherich
        2
    josherich  
    OP
       2019-10-15 12:17:36 +08:00
    @est 是楼主失误了,网络这么慢还用异步载入字典,刚改成了同步,刷新一下就有了
    grimpil
        3
    grimpil  
       2019-10-15 12:35:10 +08:00 via Android
    如果是根据情感分析给文字加上不同的背景色,会不会很花很辣眼
    oisc
        4
    oisc  
       2019-10-15 13:47:46 +08:00
    楼主想法很好,我这里给个拙劣的建议。我们一般说词语有 content word (内容词) 和 function word (功能词),按照 IDF 挑出来的词一般是内容词。但是中文作为一种表意的语言想要做到准确是需要功能词支撑的,词的粒度是不是太小了?
    可以参考一下英文的一些技术:
    曾经很火的 https://www.spritz.com demo: https://codepen.io/keithwyland/pen/JztfD

    另外有本书叫 《眼动追踪和中文阅读》,希望楼主能继续研究下去。
    josherich
        5
    josherich  
    OP
       2019-10-15 21:40:39 +08:00
    @grimpil 我也考虑过情感分析,但情感分析(正反面情绪)一是适用的文字类型很有限,比如影评,对话;二是其本身是否准确我也非常怀疑
    josherich
        6
    josherich  
    OP
       2019-10-15 22:17:36 +08:00
    @oisc 对,这里其实只用了全局词频,如果对文档词频平均,一些主题词会变淡。但有时主题词是需要的,可以帮助读者定位文本中关键的几个方位。
    你说的没错,这个工具的目标是突出语义层面上的比较和变化,从字到词,到短语句子,再到段落,我的感觉是不同层面需要结合起来运用。
    感谢推荐,我去看看
    zhigang1992
        7
    zhigang1992  
       2019-10-17 14:40:07 +08:00
    josherich
        8
    josherich  
    OP
       2019-10-18 09:39:48 +08:00
    @zhigang1992 这个是用了英文中的词根 /词干 或者说 unique prefix 来加快阅读速度,中文没法这么标记。
    我的想法是用标记词频的方式,既可以突出重点词,也可以起到英文中空格的作用
    killpigman
        9
    killpigman  
       2019-10-18 15:22:55 +08:00
    我看着颜色怎么都一样??
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5327 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 05:52 PVG 13:52 LAX 22:52 JFK 01:52
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86