二千万条数据的一些分析 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
august
V2EX    分享创造

二千万条数据的一些分析

  •  
  •   august 2013-11-01 01:17:44 +08:00 6751 次点击
    这是一个创建 4361 天前的主题,其中的信息可能已经有所发展或是发生改变。
    首先感谢某酒店提供的数据。

    页面在这里:

    http://august.hk/2000w.html

    没事拿来练习一下 sql, 有些校准,有些忽略,大致上准确。

    欢迎提供更多统计意见。
    第 1 条附言    2013-11-01 12:10:06 +08:00
    追加了星座,天秤躺
    34 条回复    1970-01-01 08:00:00 +08:00
    senghoo
        1
    senghoo  
       2013-11-01 01:26:35 +08:00 via iPad
    Goodjob
    liuhk388
        2
    liuhk388  
       2013-11-01 01:31:33 +08:00 via iPhone
    地区分布那张亮了
    问一下图是用什么做的?
    drush
        3
    drush  
       2013-11-01 01:40:43 +08:00 via iPad
    drush
        4
    drush  
       2013-11-01 01:42:10 +08:00 via iPad
    ...,不是,用Google chart 做的
    liuxurong
        5
    liuxurong  
       2013-11-01 01:47:44 +08:00
    看不到 图??
    cctvsmg
        6
    cctvsmg  
       2013-11-01 03:51:56 +08:00
    yelite
        7
    yelite  
       2013-11-01 05:30:00 +08:00   1
    我做了个生日的统计发现9月和10月出生的特别多,有9.9%和9.5%, 相对来讲3月到6月出身就比较少,最低的好像是7.8%
    Mihuwa
        8
    Mihuwa  
       2013-11-01 08:13:50 +08:00 via iPhone
    很有意思的表
    DearMark
        9
    DearMark  
       2013-11-01 08:17:09 +08:00
    喜闻乐见系列
    august
        10
    august  
    OP
       2013-11-01 08:20:05 +08:00
    @cctvsmg 我没想到统计入住时间,另外我发现82年的人是最多的,但如果地址是“香港” 的,所有生日都好像是默认为“19821228”,不知你有没有去除。
    august
        11
    august  
    OP
       2013-11-01 08:21:41 +08:00
    @yelite 生日这个我觉得要跟身份证号码来校验而身份证又分15位同18位,而且有上面的情况出现,略复杂,不会用sql来做,所以没做过统计。
    ChiangDi
        12
    ChiangDi  
       2013-11-01 09:06:22 +08:00
    越年,男女差越小;越地人越多;排名第一的居然是
    kurtrossel
        13
    kurtrossel  
       2013-11-01 09:17:06 +08:00
    看女性年龄分布,三十如狼果然不是盖的
    yelite
        14
    yelite  
       2013-11-01 09:38:51 +08:00
    @august 我没有看birthday字段,只看非重复18位身份证的,然后从身份证里提取生日,数量大概有1800w吧。

    待我学一下数据展示的js,也像你这样做个网页出来
    detailyang
        15
    detailyang  
       2013-11-01 10:12:33 +08:00
    数据库地址多少。从网上下的解开来全错的 = =。也想练练手
    imganquan
        16
    imganquan  
       2013-11-01 10:16:22 +08:00
    ,做得非常棒。
    felix021
        17
    felix021  
       2013-11-01 10:27:29 +08:00
    我前两天用它来跑压测了。。
    august
        18
    august  
    OP
       2013-11-01 10:36:04 +08:00
    @detailyang 就在百度一搜一大把
    cctvsmg
        19
    cctvsmg  
       2013-11-01 11:04:58 +08:00
    @august 也只过滤了一下一些明显有错误的
    csx163
        20
    csx163  
       2013-11-01 13:48:50 +08:00
    @august
    @cctvsmg

    怎么做的啊,手写sql么,除了使用excel都很麻烦的样子
    august
        21
    august  
    OP
       2013-11-01 14:37:36 +08:00
    @csx163 用 sql 跑到字再填上去出
    romisanic
        22
    romisanic  
       2013-11-01 14:38:06 +08:00
    赞!做的很不错啊
    光数据量搞来玩玩也不错
    romisanic
        23
    romisanic  
       2013-11-01 14:38:45 +08:00
    呃。。。天蝎仅次于天枰了。。。
    aku
        24
    aku  
       2013-11-01 14:43:32 +08:00
    好像男的总数比女的多很多 -_-!
    yelite
        25
    yelite  
       2013-11-01 14:44:01 +08:00
    gmbsfd
        26
    gmbsfd  
       2013-11-01 14:57:48 +08:00
    男的好多....
    Cambean
        27
    Cambean  
       2013-11-01 15:07:16 +08:00
    图很好看!打开速度也很快,这个是预先生成好的吗?
    tontech
        28
    tontech  
       2013-11-01 17:17:01 +08:00
    双子座的好少啊。。。
    tonitech
        29
    tonitech  
       2013-11-01 17:31:20 +08:00
    我也下载了一个,但是这个数据太大了,根本打不开。。。该怎么分析呢?
    august
        30
    august  
    OP
       2013-11-01 17:43:45 +08:00   1
    @Cambean 是先跑好的。

    @tonitech 我是下了 csv 版的入 mysql 跑的
    ydeng
        31
    ydeng  
       2013-11-02 10:18:37 +08:00
    @cctvsmg what happened on 2012年4月9日?……
    asdftu
        32
    asdftu  
       2013-11-05 14:12:11 +08:00
    赞 @august , @cctvsmg , @yelite
    byteboy
        33
    byteboy  
       2014-02-15 00:00:22 +08:00
    @august 只找到MSSQL的版本,好麻烦,还要重新安装一个sqlserver。请问哪里有直接可以导入 mysql的下载啊?方便发个网盘链接到邮箱 [email protected] 吧,非常谢谢!
    august
        34
    august  
    OP
       2014-02-15 10:25:35 +08:00
    @byteboy 找 csv 格式的可以入 mysql
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     869 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 21:10 PVG 05:10 LAX 14:10 JFK 17:10
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86