每日产生 1440 万条数据，如何做到查询效率在百毫秒内体验？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 3948 days ago, the information mentioned may be changed or developed.

现行需求分析

每隔十秒产生1万条数据，每一条数据约260字节。
数据产生时间9:30－11:30；13:00 －15:00。在这个时间段内一天数据量约为：$1万*6*60*4 = 1440万条，约3.5GB数据$。长期预估1-3年内产生：3.7TB数据。
已产生数据非常小量更新操作，可以任务数据库无更新操作（如update ，delete），只有插入、查询操作（insert 、select）
无复杂查询。如：group by ，join
查询操作并发度不高，但查询效率严格控制在十毫秒到几百毫秒内。
对写数据库操作要求高，达到10秒内完成插入1万条数据
每条数据字段都是数字或段文字，没有复杂字段。
选择什么样物理服务器＋数据库＋数据架构？如dell r730+mysql＋分库分表？

数据库

查询

数据

40 replies 2015-07-10 17:34:39 +08:00

lhy360121

Jul 9, 2015

mysql按日期分表比较好，建好索引，查询还是很快的。插入没测过。

realpg

PRO

Jul 9, 2015

撸主是自己计算XX指数么还是数据分析的高频交易

dododada

Jul 9, 2015

读写分离，分库分表，上搜索引擎.
elasticsearch号称支持pb级的搜索。

Tink

PRO

Jul 9, 2015

数据产生时间9:30－11:30；13:00 －15:00

周六周日不产生?

em70

Jul 9, 2015 via Android

每个写入时间段，创建一个新表来接受输入，尽量少的索引，来保证插入效率。如果觉得效率还不够，就每一天的每一个小时都创建一个表接受插入。

每天15点开始执行数据汇总操作，将当天的每个表数据汇入总表，加尽量多且必要的索引。

如果存在大量重复记录，可以去重，然后建立一个计数器表，统计每一种记录的次数即可

数据库不建议自己服务器搭建，用阿里云RDS，性能超强

zhanglp888

Jul 9, 2015

我的做法时，根据时间创建新表，我当时是一天一个表，加必要的索引
搜索时，如果搜索某一天的话，就搜索那天的表，
如果搜索两天以上，就根据时间范围，把那几天的表的组合起来建立临时表，再去搜索
没有你的数据这么多，所以没法给你具体的结果

scys

Jul 9, 2015

考虑自己有多大的带宽，如果1000MB/s的带宽，可以直接考虑同步到服务器上，然后让云去烦恼。
如果是自有服务器，考虑服务器群来处理，其实就是分表。

hbq

Jul 9, 2015

@Tink 每天都会产生数据。everyday，不放假。哈哈

hbq

Jul 9, 2015

@em70 你就是每天产生的数据，最终都会汇总到一个大表中，这样日积月累这个表会很大很大，我想这个总表是不是在逻辑看作一个表，在实际物理存储的时候是分成小表存储，其实就是一个分表操作。但是做成一个总表，在以后查询效率控制在百毫秒内，我觉效率会不好。但是每天建一个表，就是每天产生的表数据量为1440万，以后查询时候，按照时间查询，找到对应的表，再到对应的字段，这样效率应该可以控制在百毫秒内。在全局上看，我还不太清楚这两种方案好与坏

hbq

Jul 9, 2015

@scys 我们想存到我们自己物理服务器，出于数据安全性考虑

hbq

Jul 9, 2015

@zhanglp888 你的做法，和我一开始是一样的。你的单表数据量是多少，查询效率如何，参考下。谢谢哦

fredcc

Jul 9, 2015

无复杂查询尽量别用RDMS

scys

Jul 9, 2015

@hbq 不知道你目标是50~100ms还是100~300ms，这两个数量级是两个坑
定个目标咯，我觉得我没有对50ms内的数量级做任何建议，这个太挑战我能力了。

你现在是做架构方案，还是改造？

mingyuan2011

Jul 9, 2015

卤煮要自己存L1还是L2的行情数据啊？

vmskipper

Jul 9, 2015

@zhanglp888 装脸了还是本家

webflier

Jul 9, 2015

如果你存的是时间序列之类，直接append文件，每条记录固定长度，查询的时候自己去算offset，然后读出来。

em70

Jul 9, 2015

@hbq 计算机永远是时间换空间,空间换时间的游戏,要想查找快,就需要占更大的空间,最有效的加快查找办法是做反向索引,google上千亿页面怎么做的几十毫秒查询的呢,他是先把所有可能的关键词都做了预先的计算,把关键词对应的搜索结果已经缓存下来了,查找的时候就直接调用结果,不需要再去遍历总表了.

你是否可以提前预判到可能被查询的关键词,利用15点到第二天9点这段时间全部穷举,缓存下来.写到一个表里.

webflier

Jul 9, 2015

@mingyuan2011 我估计楼主应该是要存股市之类的tick data

akira

Jul 9, 2015

稍微计算了一下，每秒大约是250kb的数据写入，这个对大部分提供数据库云服务商来说，都不是什么难度。除非你自己能handle，不然不是很建议自建数据库。

查询的效率依赖你的sql语句以及索引，这个只能具体分析了。例如如果你写个select * from table;想100ms以内返回当日的所有数据，神仙都帮你不了。