
1 lewinlan Jan 8, 2021 via Android 我记得有一个参数,可以指定原地操作。 |
2 wuwukai007 Jan 8, 2021 via Android concat |
3 bilibilifi Jan 8, 2021 via iPhone list 里搞好了再转?我记得 dataframe 为了优化性能会把数据放在连续的内存里 |
4 nthhdy Jan 8, 2021 我不了解啊,瞎说的。但我感觉它不会拷贝内存的,有可能是写时复制的。可以读下源码看看。 |
5 crystom Jan 8, 2021 懒操作吧 |
6 allAboutDbmss Jan 8, 2021 |
7 milkpuff Jan 9, 2021 pandas 直接操作非常慢,一般拼接都 append 到 list 里面,最后一次性 concat 。 pandas 索引、切片、拼接、赋值等都不适合频繁调用,转换成 numpy 效率可以极大提升 |
8 Rorysky Jan 9, 2021 猛男都直接用原生数据类型 |
11 myCupOfTea Jan 9, 2021 数据量太大确实会有性能问题啊 底层是 numpy 吧,numpy concat 数据量大的阵列确实会很慢 |
12 lithiumii Jan 9, 2021 via Android append 确实慢 如果是一堆小 df 建议 concat 一个 list 如果是一行一行的可以每行先存成一个 dict 然后 append 到 list 里,最后转成 df |
13 shuangchengsun OP @bilibilifi 我现在的数据阵列是 rows 是一亿五千万左右,columns 是 12,有点太庞大了,用 list 的话能撑住么? |
14 shuangchengsun OP @allAboutDbmss 谢谢推荐,我去看看这个工具 |
15 shuangchengsun OP @myCupOfTea 数据量确实很大,rows 差不多一亿五千万的样子。 |
16 shuangchengsun OP @lithiumii 感谢指导,我这就去试试。 |
17 outoftimeerror Jan 9, 2021 用 spark dataframe |
18 volvo007 Jan 9, 2021 @shuangchengsun list 存的是对象指针,不是实际的对象…… 对于这个体量的数据,可以考虑用 vaex 这个库 如果上下文操作不复杂且需要持久化的话,强烈安利 PostgreSQL 数据库来处理,超好用,真香 |
19 weeevv Jan 9, 2021 Dask 或者直接上数据库吧。 |
20 dlsflh Jan 9, 2021 via Android 试试看并行的 pandas modin ? |
21 ElliotQi Jan 9, 2021 |
22 shuangchengsun OP @volvo007 感谢指导 |