app 一天产生10gb 的数据 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
whatisnew
V2EX    数据库

app 一天产生10gb 的数据

  •  
  •   whatisnew 2015-05-28 20:50:55 +08:00 3155 次点击
    这是一个创建于 3872 天前的主题,其中的信息可能已经有所发展或是发生改变。

    一个月下来300gb如何处理是好,如何计算?这种应该就是所谓的大数据了吧?

    分词

    统计分析

    目前行业都是怎么做的呢?

    17 条回复    2015-07-21 18:19:54 +08:00
    wy315700
        1
    wy315700  
       2015-05-28 20:53:20 +08:00
    hadoop 集群,,,
    yghack
        2
    yghack  
       2015-05-28 21:00:02 +08:00
    使用的什么数据库?
    neo2015
        3
    neo2015  
       2015-05-28 21:05:34 +08:00
    什么APP这么牛,我自己的APP。一个月才1G数据入库
    johnsmith123
        4
    johnsmith123  
       2015-05-28 21:48:28 +08:00
    大数据233 合着大数据一个200块的盘就行了?
    vibbow
        5
    vibbow  
       2015-05-28 22:12:58 +08:00
    怎么都得PB级别的数据才算得上大数据吧...
    em70
        6
    em70  
       2015-05-29 01:44:40 +08:00 via Android
    每天晚上分析当天数据,留下重要的,其他扔掉
    x4
        7
    x4  
       2015-05-29 01:51:45 +08:00 via Android
    @vibbow 度娘正在建设可放4000pb的云计算中心。。。可放大数据。。。
    icloudnet
        8
    icloudnet   2015-05-29 03:23:25 +08:00
    @em70 手工是根本没法分析的,我每天近4G的数据都已经麻木了。
    做大数据分析是个好办法。
    cevincheung
        9
    cevincheung  
       2015-05-29 03:31:10 +08:00
    10gb的什么数据?用户上传的图片?还是类似微博的文本数据?前者,第三方存储平台。后者,使用的是什么数据库?是数据库最终的文件大小?还是……?或者是web or database的log文件?log 第二天整理头天的数据,归档完毕后即可删除
    asj
        10
    asj  
       2015-05-29 05:09:57 +08:00 via iPad
    LHC,就是那个撞出上帝粒子的对撞机
    每秒产生1GB数据
    whatisnew
        11
    whatisnew  
    OP
       2015-05-29 07:55:59 +08:00 via iPhone
    @cevincheung 类似微博这样的数据+用户行为数据,mysql数据库
    easynoder
        12
    easynoder  
       2015-05-29 08:21:37 +08:00
    Hadoop + elasticsearch
    yanze0613
        13
    yanze0613  
       2015-05-29 10:00:01 +08:00
    我猜,是用户行为日志,不然一般量级的APP做不到这么多
    然而我要说,其实这谈不上大数据,因为很多记录,都是垃圾
    wingoo
        14
    wingoo  
       2015-05-29 11:09:08 +08:00
    拆分纬度到不同的库
    cevincheung
        15
    cevincheung  
       2015-05-29 14:31:51 +08:00
    @whatisnew
    1.换数据库(MongoDB、PostgreSQL)承担存储、写入。
    2.1增加Redis/Memcached等缓存技术手段,在前端承担读。
    2.2或者使用Elasticsearch/Solr等手段(如果是类似只读取指定条件的数据而不存在什么复杂条件检索和全文检索的话,Redis什么的足够)


    Ps:最重要的一点,10+台的服务器做集群是肯定的,单机想解决瓶颈那就洗洗睡吧。
    bdbai
        16
    bdbai  
       2015-05-29 19:12:02 +08:00 via iPhone
    @asj BOINC跑否?
    taowen
        17
    taowen  
       2015-07-21 18:19:54 +08:00
    Kafka + Storm/Spark + Elasticsearch
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     834 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 23:01 PVG 07:01 LAX 15:01 JFK 18:01
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86