请问各位怎么理解方差? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
JCZ2MkKb5S8ZX9pq

请问各位怎么理解方差?

  •  
  •   JCZ2MkKb5S8ZX9pq 2018 年 10 月 20 日 3726 次点击
    这是一个创建于 2744 天前的主题,其中的信息可能已经有所发展或是发生改变。

    忽然脑子有点混,想讨论下。

    假设案例

    • 假设一个平台有 N 个主播,每个主播各自有一定地付费人数。
    • 这里想知道付费的分布情况,有没有集中在个别大土豪付费。
    • 但每个房间的付费情况差很多,直接用方差不大公平。同样的离散度付费大的方差大很多。

    所以我考虑的方法是这样的:

    • 先取平均值 avg
    • 计算每个付费 C 和 avg 的比例关系 P = C / avg
    • 用 P 来统计方差 sum((P-1)^2) / (N-1)

    然后有几个疑问

    • 方差和标准差有没有几何的解释?
    • 为什么是方差,而不是绝对值?比如 sum(abs(P-1)) / (N-1)
    • 如果把 avg 换成中间数会怎么样?
    • 如果增加数据维度,离散程度怎么算?

    PS

    一些代码就觉得自己数学底子差,不少公式查了都看不大懂。
    有什么补数学基础的东西可以看嘛?

    19 条回复    2018-10-22 18:04:23 +08:00
    ryd994
        1
    ryd994  
       2018 年 10 月 20 日 via Android   2
    Baymaxbowen
        2
    Baymaxbowen  
       2018 年 10 月 20 日 via Android
    张宇的高等数学 36 讲
    ytterbium
        3
    ytterbium  
       2018 年 10 月 20 日 via Android
    取绝对值是一阶范数。想做数据分析画箱线图是不是更好
    kx5d62Jn1J9MjoXP
        4
    kx5d62Jn1J9MjoXP  
       2018 年 10 月 20 日
    为什么是平方而不是绝对值, 为什么不用中值, 都是因为好算吧
    byaiu
        5
    byaiu  
       2018 年 10 月 20 日 via Android
    聚类可能比较方便
    JCZ2MkKb5S8ZX9pq
        6
    JCZ2MkKb5S8ZX9pq  
    OP
       2018 年 10 月 20 日
    @ssynhtn 我后来想想,绝对值和平方值的区别。
    其中一点是,平方值能 **放大远端的数据** 。
    但伴随的问题是,碰到小于 1 的时候,效果就反了。

    中值可能也是会影响结果。
    比如咱们 10 个码农和 1 个马云,计算财富方差。
    按中值的话就是 10 个码农的方差很小+1 个马云方差很大。
    按平均值的话,就是 10 个码农方差很大+1 个马云方差很大。
    在这个特例下,平均值求出来的,可能更接近期望结论。
    yidinghe
        7
    yidinghe  
       2018 年 10 月 20 日 via Android
    简单的办法就是按照用户在房间内打赏的量倒排即可。
    JCZ2MkKb5S8ZX9pq
        8
    JCZ2MkKb5S8ZX9pq  
    OP
       2018 年 10 月 20 日
    @ryd994 第一次听说这词,不过其中几个方法倒是经常用到。
    alixali
        9
    alixali  
       2018 年 10 月 20 日
    在这里的付费都是正值,有中位数和平均值,根据两个的数比较,也是大致可以判断分布的是不是有偏的,和对应偏离程度啊。
    JCZ2MkKb5S8ZX9pq
        10
    JCZ2MkKb5S8ZX9pq  
    OP
       2018 年 10 月 20 日
    @alixali 也是个思路 不过我也就是举例 主要问题还是怎么理解方差
    alixali
        11
    alixali  
       2018 年 10 月 20 日
    我看统计上也只是说用来衡量分布的离散程度,或者是一个簇类的紧密程度吧,也不知道对不对。。
    JCZ2MkKb5S8ZX9pq
        12
    JCZ2MkKb5S8ZX9pq  
    OP
       2018 年 10 月 20 日
    而且如果是纯平方和,再开个根号,还能理解为多个维度中的距离。
    比如
    (x^2 + y^2)^0.5 = 二维平面原点到点的距离
    (x^2 + y^2 + z^2)^0.5 = 三维空间原点到点的距离
    这样可以扩展到 N。

    但除以 N 或 N-1 放在这里又很难解释。
    而且标准差直接开根号,等于对分母也开了根号,还是觉得有点别扭啊。
    newton108
        13
    newton108  
       2018 年 10 月 21 日   1
    几何意义:demean 之后标准差是这个 r.v. 在希伯特空间中的 norm.
    知道这个有啥用?
    mingl0280
        14
    mingl0280  
       2018 年 10 月 21 日
    你这不就是搞了个标准分数做统计么……
    enenaaa
        15
    enenaaa  
       2018 年 10 月 21 日
    概率论和数理统计
    JCZ2MkKb5S8ZX9pq
        16
    JCZ2MkKb5S8ZX9pq  
    OP
       2018 年 10 月 21 日
    @newton108 我有点晕 我查查哈
    l00t
        17
    l00t  
       2018 年 10 月 22 日
    不理解,直接用。

    从小学第一次接触到方差的概念开始就没理解过。我也觉得绝对值就足够了,方差不知道有啥意义。
    alixali
        18
    alixali  
       2018 年 10 月 22 日
    @JCZ2MkKb5S8ZX9pq 正好今天看到一个有关无偏估计的解释,这里用到 n-1 也可能是为了得到无偏的数值。实际上上面那个公式的是 n/n-1。
    JCZ2MkKb5S8ZX9pq
        19
    JCZ2MkKb5S8ZX9pq  
    OP
       2018 年 10 月 22 日
    @alixali 嗯 用 N-1 是了偏 我理解
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2740 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 46ms UTC 09:48 PVG 17:48 LAX 02:48 JFK 05:48
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86