侯宇发长文

大模型的“雅尔塔时刻”_蜘蛛资讯网

孙杨回应是高需求宝宝

k的战略回应，是这套逻辑在AI时代的延续。上下文长度是大模型的算力黑洞。传统注意力机制下，计算量随序列长度平方级爆炸。这正是智能体快速烧钱的技术根源。每次交互堆积上下文，Token消耗在不知不觉中失控。DeepSeek V4拿出的方案是CSA加HCA，混合压缩注意力机制。CSA把每m个token的KV缓存压缩成一个条目，再通过稀疏注意力筛选top-k参与计算。HCA压得更狠，全部压缩后执行稠密注意

uon优化器，独创了mHC流形约束超连接。残差映射被严格约束在双随机矩阵上，信号在数百层网络中传递，既不衰减也不爆炸。算法取巧通常有代价。但V4 Pro的实战表现几乎打破了这个预设。Codeforces全球天梯榜上，排名第23位，与GPT-5.4持平。开源模型历史上第一次在这个榜单上与闭源顶尖模型并驾齐驱。DeepSeek内部员工已全面用它做智能体编程，体验超越Claude Sonnet 4.5，

当前文章：http://cs2.nuobolai.cn/eq9079/vklu.html

发布时间：06:10:44