这是一个创建于 2209 天前的主题,其中的信息可能已经有所发展或是发生改变。
不是 dba,只是用户。
我之前使用的集群,在 sqoop 导入、create、insert 等操作,都会将大的表格分割为 100-200M 的小文件。但目前所用的 hadoop 集群上面操作时,永远是在原文件上 append,导致文件越来越大,hdfs dfs ls 查看到表格仅由单个文件组成,个别表格文件大小甚至可能超过数十 GB。
我个人也不知道是否因为这个原因导致速度非常差。
请问是否有配置需要修改?有没有可能对现有表格进行分割?
3 条回复 2019-09-27 11:09:20 +08:00  | | 1 suixn 2019-09-27 09:41:41 +08:00 1 dfs.block.size 设置的多大? |
 | | 2 id4alex 2019-09-27 09:45:07 +08:00 1 你在 hdfs 上看到一个文件, 底层是多个 block 分布在不同节点. |
 | | 3 hiouyuu 2019-09-27 11:09:20 +08:00 谢谢两位,发现文件的确是分割为 blocks 了。
这样看起来速度慢仍然是需要靠分区来搞定,我回头和 DBA 那边说说吧。 |