关于老罗说的语音识别率从 97%提高到 99%再到 100%的问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
233
V2EX    随想

关于老罗说的语音识别率从 97%提高到 99%再到 100%的问题

  •  
  •   233 2017-05-10 04:04:39 +08:00 7336 次点击
    这是一个创建于 3085 天前的主题,其中的信息可能已经有所发展或是发生改变。
    ~~副标题 2:反正产品经理不需要文凭~~

    老罗原话大意是

    现在讯飞语音输入的准确率是 97%,但即使提升到 99%也没有什么用,不用的用户仍然不会去用。只有 99%提升到 100%才是质变。 

    首先,只要语音识别仍然是基于统计模型,无论算法有多么大革命性变更,计算平台的计算能力如何提高,准确率都不会达到 100%,只会无限趋近。 其次,无论是人和人之间的声音交流,还是在 PC 上用键盘输入文字,信息传达的准确率都不是 100%的。 这说明「输入」错误本身并不是那么让人不可接受。

    不妨先从数学角度看看这个问题。

    假设语音输入的准确率是 a,输入正确和错误给用户带来的厌烦程度(以怒气代称,包括所有疲劳等等消极情绪)分别为 CR 和 ER。那么用户输入时的怒气值计算公式为

    Rage = a * CR + (1 - a) * ER

    在输入正确时假设用户产生的疲劳程度趋近于零,那么总的厌烦程度很简单,约等于错误率乘以修正错误产生的 Rage。那么从 97%提升到 99%带来的其实是 3 倍的优化,也就是将总的 Rage 减少 2/3。

    那么为什么老罗说只有提升到 100%才是质变?

    因为用户的怒气值并不是随着输入线性增加的,因为用户往往是一点就炸的,因为用户并不是理性的。 比如一个 app 在手机里几个月不用也躺得好好的,突然某天推送一条通知,从此就再也见不到它了。所以上面的公式并不适用。或者说目前的 ER 无穷大,一旦出现就让用户想放弃了。

    在几年前,有这么一个说法:用户宁愿在屏幕上多点十下也不愿意在浏览器地址栏输入一个字母。我当时用的是三星的 I9000,当时 Android 阵营的旗舰之一,但确实是这么感受。因为屏幕又小,浏览器又臃肿,硬件性能有差,而且即使输入完网址,网站也很少有为智能手机设计的。就是实际上不可用的状态。但实际上随着近几年天翻地覆的变化,很多网站我已经宁愿去输入网址也不想装他的 app (说的就是你,淘宝)。

    其实这就是屏幕输入 ER 值大幅下降,并且退到了用户立刻骂娘的安全线之内的结果。

    语音输入也是如此,去年体验了一下语音输入,我的感觉仿佛回到了 20 年前。用过 win98/XP 自带的微软拼音的同学应该明白我说的意思。 这也是为什么老罗说只有到 100%才是质变。但我的个人看法,现阶段有执行性的方向应该是如何优化用户输入错误时修正错误的体验。如果退回爆炸的「红线」之内,才是目前问题的根本所在,也是手机厂商能力的优势所在。老罗实际怎么想的不知道,但表现出来的情况来看并没有对修正操作的优化足够留意。实际上在输入正确时语音的输入体验是大幅优于键盘的,也就是公式

    Rage = a * CR + (1 - a) * ER

    的前半部分,a * CR。那么只要修正错误的成本降低到接近键盘输入,那么语音输入一定会普及开来的。

    一句话结论:错误修正的交互才是目前语音输入的最大瓶颈。在优化好错误修正的操作后,准确率的每一点提升都会给使用体验带来飞跃的变化。

    当然以上讨论仅限使用场景为个人独处,在有其他人在场的情况另当别论。

    太困了,先到此为止吧,最后祝锤子手机大卖!

    26 条回复    2017-05-11 07:17:18 +08:00
    Syc
        1
    Syc  
       2017-05-10 06:45:23 +08:00 via Android
    用三桑 I9003 的罗锅
    taresky
        2
    taresky  
       2017-05-10 08:32:40 +08:00 via iPhone
    不觉得交互是瓶颈。

    瓶颈就在识别率,97% 是基于普通语言环境测试下得出的。但实际使用中,方言、各个领域专业词汇、内部笑话、奇怪的个性语言组合识别率有 50%?想象一下你和同事开会的时候,语音输入法来速记会议记录就懂了,可能专业性词汇还不到 10%,出来的什么鬼东西。

    我们假设这个输入法根据你自己语言习惯来优化,达到 97%绝对能消除不安的感觉。输入一百个字,删改三个,完全可接受。
    taresky
        3
    taresky  
       2017-05-10 08:33:16 +08:00 via iPhone
    当然开罗说的也是瞎扯淡。
    kokutou
        4
    kokutou  
       2017-05-10 08:44:37 +08:00 via Android
    主要矛盾是不想在公共场合对着手机讲话。。。像个傻逼。。。

    只能等脑机接口成熟了。。
    esmdxx
        5
    esmdxx  
       2017-05-10 09:07:35 +08:00 via iPhone
    @kokutou 这个逻辑,就像以前拿个大屏幕手机像个 sb 一样,要知道,观念是会改变得
    jakes
        6
    jakes  
       2017-05-10 09:13:16 +08:00 via iPhone
    @kokutou 微信用户情何以堪
    kokutou
        7
    kokutou  
       2017-05-10 09:18:06 +08:00   2
    @jakes #6
    说实话,微信用语音的,我感觉就是个傻逼。。。

    你跟别人打字,别人发来一堆语音。。。
    我 TM 还要一个一个点开听。微信自带的傻逼转文字我感觉识别率 60%最多了,发语音的是完全不考虑对方体验。
    跟这些人打交道,我基本不上心,能拖就拖,能当没看见就当没看见。
    esmdxx
        8
    esmdxx  
       2017-05-10 09:27:13 +08:00 via iPhone
    @kokutou 老板呢,你知道老板 50-60 岁,你懂得,看来,还是太年轻,90 后
    vinew
        9
    vinew  
       2017-05-10 09:29:20 +08:00 via iPhone
    @kokutou 同感…特别有些静音场合,别个还一个劲的发语音。还要一条一条慢慢转文字←_←
    esmdxx
        10
    esmdxx  
       2017-05-10 09:30:39 +08:00 via iPhone
    @vinew 你不会提示对方?????
    kokutou
        11
    kokutou  
       2017-05-10 09:30:40 +08:00
    @esmdxx #8
    小公司老板都直接叫到办公室的好吧。
    大公司你都见不到老板。

    再说了,哪有老板下发工作用微信的?

    真有这种公司,不待也罢。
    irainsoft
        12
    irainsoft  
       2017-05-10 09:43:47 +08:00
    语音确实是一个很方便传达消息的方式,话越长效率越高,但确实会受场合限制。我觉得是即使是公共场合,用微信给朋友发语音,因为你说话时会说出一句完整的话所以其实就像面对面说话一样也没有什么特别尴尬的事情(当然如果你发个语音说:“在吗”我觉得是个挺逗逼的行为),楼上几个说到的不适合语音的情景虽然是存在的但也可以避免的,比如不适合收语音时你发一条“正在上课 /开会,发文字”我觉得对方如果是正常人应该都应该不会再发语音了吧。另外微信语音也是可以选择听筒和外放两种方式的吧,即使在用电脑你手机放桌上亮着屏幕来消息时点一下也不算麻烦吧?
    fish267
        13
    fish267  
       2017-05-10 09:46:41 +08:00 via Android
    最烦微信发语音的
    esmdxx
        14
    esmdxx  
       2017-05-10 09:47:52 +08:00 via iPhone
    @esmdxx 微信方便,加班随时伺候你,难道你们不用?????
    ivmm
        15
    ivmm  
       2017-05-10 09:57:55 +08:00
    的确 TM 讨厌发语言的,你普通话标准,手机录音效果好也就算了。

    有时候一条 20s 的语音听 3 遍才知道在说什么
    ixo
        16
    ixo  
       2017-05-10 09:59:30 +08:00
    没人觉得 100%的识别率就是个伪命题吗?
    人之间的交流也不能保证 100%的听清并理解对方的语言啊,而且很多语言本身就有歧义的存在。
    forestyuan
        17
    forestyuan  
       2017-05-10 11:09:56 +08:00
    很好奇这个老罗是谁
    swulling
        18
    swulling  
       2017-05-10 11:13:00 +08:00
    语音识别都各种吹,全都是实验室环境下的数据

    真实环境下,微信语音转文字就是一个例子,60%?呵呵一半都没有
    QAPTEAWH
        19
    QAPTEAWH  
       2017-05-10 11:19:27 +08:00
    一般 App 都没有考虑多页面。我能同时打开 N 个 TB、知乎页面,它们的 App 却不能。
    kutata
        20
    kutata  
       2017-05-10 11:23:54 +08:00
    @kokutou 我只能说真的有不少老板做这种事,痛苦得很。
    xsmdxe
        21
    xsmdxe  
       2017-05-10 12:35:24 +08:00
    @swulling 你知道 cortana 吗,识别率在真实环境下 99%,现在微软得语音输入法,识别率也有 95%,如果不是,他总是给我自动加标点符号,真是别触摸屏快,当然有得时候,复杂词汇,会慢一些,这么说,70%时间准确率是 99%
    swulling
        22
    swulling  
       2017-05-10 14:44:17 +08:00
    @xsmdxe 用过,99%绝对吹牛,并没有好到哪里

    正常语速说话,有 60%就不错了,你要是说一字一顿咬字清晰。。我一直觉得这样去做控制真的很二
    bsidb
        23
    bsidb  
       2017-05-10 15:18:52 +08:00 via Android
    现在语音输入法整理文字稿倒是很方便的。
    自己先听一遍访谈录音,再念一遍用语音输入法输入电脑,速度比自己打字快多了!
    fengxing
        24
    fengxing  
       2017-05-10 19:29:52 +08:00
    @xsmdxe #21 微软自己都不敢说 99%,微软自己说的是错误率是 6.3%,这还是英文,而不是中文。
    中文目前最的是讯飞,其他的一个能打的都没有。
    从我日常使用来看,正确率按讯飞说的 97%完全可以达到,只有个别咬字不清晰的字才会识别错误。
    使用语音输入比打字快的多得多。就算修改极个别错别字也比打字速度快
    Jodal
        25
    Jodal  
       2017-05-10 19:45:16 +08:00 via iPhone
    语音输入感觉是个伪命题,脑接口才是真命题。

    #瞎扯淡#
    ryd994
        26
    ryd994  
       2017-05-11 07:17:18 +08:00 via Android
    瞎扯
    能 100%?人还有听不清的时候呢
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3698 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World i powered by solitude
    VERSION: 3.9.8.5 28ms UTC 04:20 PVG 12:20 LAX 21:20 JFK 00:20
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86