
1 ericguo 2022-06-30 14:44:04 +08:00 写代码,比如 python 脚本可以替代这里的绝大多数方案,并且技能更通用,更灵活。 不高兴写代码 Kettle (我们在用)应该还是比阿里的靠谱点,如果用 Kettle 卡死,多半是内存不够,给够会好一点,和 ES 当然肯定也得分机器跑。 |
2 yeyang5211 OP @ericguo 感谢回复, 如果行业解决方案是 Kettle 我也想学(私心想学更通用的行业方案) |
3 ericguo 2022-06-30 14:51:41 +08:00 @yeyang5211 更通用的是 python ,Pandas/Matplotlib 那套,而且写代码你适应了真心不高兴拖拉界面,因为拖拉界面每次都要重新搞,又看不到历史改动。 |
4 Mithril 2022-06-30 14:55:18 +08:00 MongoDB 的结构如果和 ES 一样的话,直接同步更新进去就行 自己写代码的话有 ChangeStream 不想写代码也可以找个第三方组件自动更新进去 更新是实时的,不需要定期跑任务 |
5 EastLord 2022-06-30 14:55:37 +08:00 了解一下 debezium ,看看是否满足需求 |
6 yeyang5211 OP @ericguo 好的, 我们公司的开发语言是 java(现在也是 java 来处理 etl),我个人理解 python 好像差不多. 麻烦能指点下 python 来处理数据合并有什么优势吗. |
7 yeyang5211 OP |
8 litchinn 2022-06-30 15:21:51 +08:00 想顺便问问 streamsets dc 咋样,我使用起来感觉还行呀,很少看到人用呢 |
9 ericguo 2022-06-30 15:23:23 +08:00 @yeyang5211 没啥优势,硬要说有的话,数据处理这块用 python 的多一点。 |
10 HanMeiM 2022-06-30 16:39:56 +08:00 我们是用的 flink |
11 lixen9 2022-06-30 17:16:07 +08:00 kafka connect 应该也能满足 |
12 yeyang5211 OP |
13 yeyang5211 OP @litchinn 刚刚去看了下 社区版的部署还要授权.. 服务还要被监控 功能倒是很齐全 |
14 wdmcode 2022-06-30 18:09:28 +08:00 Flink 可以写 Flink SQL 直接同步到 ES ,Flink CDC 可以捕获 MySQL 中的变更数据同步到 ES |
15 kkadmin 2022-07-01 09:48:08 +08:00 elasticsearch-datatran ,不知道这个可不可以帮到你 |
16 yeyang5211 OP @wdmcode 最后选定是 Flink 来做, 因为领导力推 让我去学.. 不过 es 我也是半路出家,带薪学习大数据相关技术也好. 以后还能互相成就. |