LeoTalk AI周知 8: 注意力机制发展
最近通过这篇文章和这个播客,了解了一下现在一些模型厂探索的方向,以及Transformer和对应的注意力机制在行业如何演进的,有一种很清晰的认知提升了,推荐有时间的可以去看看和听听。用我自己的理解大概总结一下相关的内容:
- Transformer包含FFN和Attention,前者在DeepSeek的助推下,MoE已经全面流行,后者是会继续发展的一个方向
- DeepSeek走了稀疏注意力机制(Sparse Attention)的方向
- MiniMax原来M1走了线性注意力机制(Linear Attention)的方向,但是最新发布的M2又回到全局意力(Full Attention)
- Kimi还持续在Linear Attention方向探索
- OAI之类的硅谷模型厂不发paper了,但是应该也有在这些方面去探索
- Transformer不一定最好的架构,但却是最亲和GPU的架构,效率最大化
关于几个注意力:
- 全局注意力(Full Attention):默认的,每个Token看所有Token;O(n²),成本高,上下文变长就爆炸
- 局部注意力/滑动窗口(Sliding Window Attention):成本更低,适合长序列;只能看到局部,信息传播慢。OpenAI开源的OSS就走了这个方案
- 稀疏注意力(Sparse Attention):高效看重点信息;需要特殊设计
- 线性注意力(Linear Attention):理论可扩展到超长序列;可能损失精度
- 混合注意力(Hybrid Attention):多宗注意力机制混搭,让模型既能看长上下文,又能不爆内存,不降低速度
最近明显感觉到AI for Science这种用于科学研究和探索的应用变多了,这周也能看到好几个类似的AI科学的应用,OAI也有相应的口径去表达这个。
研究报告
- Artificial Analysis发布2025-Q3的AI报告:大模型竞争剧烈;Agentic能力成为重点;开源模型加速度迭代发布;STS模型达到生产应用级别;图片编辑和视频生成成为主流
- 麦肯锡发布The state of AI in 2025:AI带来的重点不在于省人省事,而在于用AI重新设计工作方式、在全公司推广,并把它当成增长和创新的引擎
产品&模型发布
- Chrome支持SplitView
- Kimi推出K2 Thinking,可以在无人干预下连续执行200-300个工具调用
- Google推出File Search Tool,包装好的RAG,通过接口提供,省心开发,对个开或者快速MVP landing来说是可行的
- Gleato-30B-A3B,用于GUI Computer-Use任务,基于Qwen3 VL
- Google推出第七代TPU Ironwood,比v5p(5代里最强的版本)快10倍
- 小鹏推出VLA2.0、RoboTaxi、 Iron机器人、飞行汽车
- OpenAI发了一个能理解文化差异的基准测试IndQA
投资&商业
- OpenAI与Amazon达成380亿美元的计算能力交易。(截至目前OAI和微软、Google、Oracle和亚马逊都有类似的交易了
- 微软97亿美元从IREN购买算力,批准向UAE运送NVIDIA显卡,和Lambda达成数十亿美元协议
- Perplexity付4亿美元(现金+股权)给Snap,用于在Snapchat里集成Perplexity,Snap的股价涨了15%
热点论文
- Towards Robust Mathematical Reasoning,Google DeepMind推出IMO-Bench基准测试
- Step-Audio-EditX Technical Report:StepFun AI开源的3B Step-Audio-EditX音频编辑模型的技术报告
- Kosmos: An AI Scientist for Autonomous Discovery:AI科学家,Edison Scientific的
- NVIDIA Nemotron Nano V2 VL
- Cambrian-S: Towards Spatial Supersensing in Video:纽约大学和斯坦福大学推出的Cambrian-S模型,用于空间推理,还提出一个benchmark
- Introducing Nested Learning: A new ML paradigm for continual learning by Google
- Scaling Agent Learning via Experience Synthesis by Meta,提出了DreamGym框架,用模拟和推理生成的经验来训练Agent,RL就不在依赖于真实环境跑任务。
- Magentic Marketplace: an open-source simulation environment for studying agentic markets by Microsoft,推出Magentic Marketplace,一个开源仿真平台,模拟未来AI Agent经济
- Context Engineering 2.0: The Context of Context Engineering:把上下文工程定义为降低熵的过程,定义了上下文的4个时代,从最早人类负责把混乱世界压缩成AI能懂的内容,到逐渐转向AI自主去构建上下文的未来
- Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs
其他阅读
- 李飞飞在写Substack了,第一篇文章聊了空间智能(Spatial Intelligence),空间智能基于世界模型,有三个原则:可生成generative,多模态multimodal,可交互interactive。(Substack助推了一群反碎片化信息摄入人群的需求,顺势而为,越做越大
Enjoy Reading This Article?
Here are some more articles you might like to read next: