
1 kenneth 2014-12-07 17:59:28 +08:00 问这种问题的人,一般喜欢装逼,所以不要理他。聊点别的。。。 |
2 chenbojian OP @kenneth 。。。哈哈,那样会挂的更快的,虽然确实挂了。 |
3 imn1 2014-12-07 18:31:38 +08:00 向这几十亿条商家公布联络方式,如果没一个来推销 iphone,那就是不包含 |
4 EPr2hh6LADQWqRVH 2014-12-07 18:38:10 +08:00 告诉他没有什么好的方案 no magic |
5 chenbojian OP @avastms 我觉得他是一只想问我分布式存储的东西,但是我确实不是很了解,所以没往这方面说。 |
6 nolouch 2014-12-07 19:57:59 +08:00 via Android 阿里现在还有校招? |
7 ziyuan 2014-12-07 20:40:13 +08:00 分布式计算,合并结果,hadoop hdbase之类的 |
8 angeloce 2014-12-07 21:47:52 +08:00 这就是简单的倒排吧。 商品名称, 描述分词, 以词建索引。 按hash查, 保证iphone不被分词开就行了。 什么分布式计算啥的, 随便扯扯。 |
9 chenbojian OP @nolouch 两三个星期前吧,可能算补招,是我9月份时候投的简历,当时觉得测试要求低就投了结果把自己坑了 |
10 chenbojian OP @angeloce 这种方案我知道,当时被他那种不把问题说清楚的问问题方式给唬住了(最开始还不说可以改数据结构,然后问他他说随便,随便设计。。。汗),说了个文件里面建字典的方式,比如第一行存储i开头的字符串在哪一行。。。 |
11 spacewander 2014-12-07 23:11:21 +08:00 丢数据库去 |
12 spacewander 2014-12-07 23:11:41 +08:00 这个远远不算大数据吧 |
13 chenbojian OP @spacewander 我也很想跟他这么说。。。。但是我以为他要考我大数据算法什么的。。。然后想想只找一个和找前几个这种不一样。。。没遇到过会面设计数据存储方案的 |
14 takato 2014-12-07 23:50:56 +08:00 扔进Hadoop+Hive去跑就是了。。。不慢的。。。以前我的部门就是那么搞的。。 |
15 paulw54jrn 2014-12-08 06:11:51 +08:00 突然想起以前老师上课讲的东西.. 文件经过一次O(n)的转换后,可以进行O(m)时间复杂度的字符串检索.. 这里的m与检索字符(不是待检索字符)长度正相关... 同时可以与RLE+LZW结合在一起.. http://alexbowe.com/fm-index/ http://www.cs.jhu.edu/~langmea/resources/bwt_fm.pdf |
16 sampeng 2014-12-08 22:58:55 +08:00 不是慢不慢的问题。。这个数据量,不是非常懂算法的,有经验的。都不会扔hadoop+hive。。那点硬件成本和维护成本,还不够程序员写个程序来干的呢。。 个人想法,纯文件+字符串查找的各种算法+分一下线程/进程.满足业务需求,简单可依赖。。你还想咋样= =! |
17 heimonsy 2014-12-09 10:29:40 +08:00 字典树 |