节过完,开工了。到处都是适配 Deepseek 、提供 Deepseek 服务的好消息。
作为一个外包工程狗,无可避免接到把 Deepseek 用在生产上的任务。
于是,这周做了一些调研。
#1 Deepseek 的幻觉并不低
https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3
https://github.com/vectara/hallucination-leaderboard
#2 (基于硅基流动的) DeepseekV3 MoE 视觉理解准确率不如 QwQ ;虽然 DeepseekV3 价格低一些
《只是初步测试,或者调整参数会有提升》
个人可以理解用 DeepseekV3 的辅助编程;文字生成。这些还有人工调整或非关键性任务。
但是。。。真的能把 DeepseekV3 或 R1 挂到生产系统和实时策略上吗?
目前有 2 个场景:对小模型的结果进行复判;对告警信息进行汇总问答
个人信心不足。
哪位有成功案例给介绍介绍。
作为一个外包工程狗,无可避免接到把 Deepseek 用在生产上的任务。
于是,这周做了一些调研。
#1 Deepseek 的幻觉并不低
https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3
https://github.com/vectara/hallucination-leaderboard
#2 (基于硅基流动的) DeepseekV3 MoE 视觉理解准确率不如 QwQ ;虽然 DeepseekV3 价格低一些
《只是初步测试,或者调整参数会有提升》
个人可以理解用 DeepseekV3 的辅助编程;文字生成。这些还有人工调整或非关键性任务。
但是。。。真的能把 DeepseekV3 或 R1 挂到生产系统和实时策略上吗?
目前有 2 个场景:对小模型的结果进行复判;对告警信息进行汇总问答
个人信心不足。
哪位有成功案例给介绍介绍。
