DeepSeek V4架构升级,提高效率

2026-04-27 17:50
 452
DeepSeek V4通过架构升级实现了长上下文窗口的大幅降本,其Pro和Flash两个版本均支持100万词元token的超长上下文窗口。这一效率跃升依托三项关键架构创新实现:混合注意力机制、训练稳定性、主训练优化器。