LeoTalk AI周知 8: 注意力机制发展

最近通过这篇文章这个播客,了解了一下现在一些模型厂探索的方向,以及Transformer和对应的注意力机制在行业如何演进的,有一种很清晰的认知提升了,推荐有时间的可以去看看和听听。用我自己的理解大概总结一下相关的内容:

  1. Transformer包含FFN和Attention,前者在DeepSeek的助推下,MoE已经全面流行,后者是会继续发展的一个方向
  2. DeepSeek走了稀疏注意力机制(Sparse Attention)的方向
  3. MiniMax原来M1走了线性注意力机制(Linear Attention)的方向,但是最新发布的M2又回到全局意力(Full Attention)
  4. Kimi还持续在Linear Attention方向探索
  5. OAI之类的硅谷模型厂不发paper了,但是应该也有在这些方面去探索
  6. Transformer不一定最好的架构,但却是最亲和GPU的架构,效率最大化

关于几个注意力:

  • 全局注意力(Full Attention):默认的,每个Token看所有Token;O(n²),成本高,上下文变长就爆炸
  • 局部注意力/滑动窗口(Sliding Window Attention):成本更低,适合长序列;只能看到局部,信息传播慢。OpenAI开源的OSS就走了这个方案
  • 稀疏注意力(Sparse Attention):高效看重点信息;需要特殊设计
  • 线性注意力(Linear Attention):理论可扩展到超长序列;可能损失精度
  • 混合注意力(Hybrid Attention):多宗注意力机制混搭,让模型既能看长上下文,又能不爆内存,不降低速度

最近明显感觉到AI for Science这种用于科学研究和探索的应用变多了,这周也能看到好几个类似的AI科学的应用,OAI也有相应的口径去表达这个。

研究报告

  • Artificial Analysis发布2025-Q3的AI报告:大模型竞争剧烈;Agentic能力成为重点;开源模型加速度迭代发布;STS模型达到生产应用级别;图片编辑和视频生成成为主流
  • 麦肯锡发布The state of AI in 2025:AI带来的重点不在于省人省事,而在于用AI重新设计工作方式、在全公司推广,并把它当成增长和创新的引擎

产品&模型发布

  • Chrome支持SplitView
  • Kimi推出K2 Thinking,可以在无人干预下连续执行200-300个工具调用
  • Google推出File Search Tool,包装好的RAG,通过接口提供,省心开发,对个开或者快速MVP landing来说是可行的
  • Gleato-30B-A3B,用于GUI Computer-Use任务,基于Qwen3 VL
  • Google推出第七代TPU Ironwood,比v5p(5代里最强的版本)快10倍
  • 小鹏推出VLA2.0、RoboTaxi、 Iron机器人、飞行汽车
  • OpenAI发了一个能理解文化差异的基准测试IndQA

投资&商业

  • OpenAI与Amazon达成380亿美元的计算能力交易。(截至目前OAI和微软、Google、Oracle和亚马逊都有类似的交易了
  • 微软97亿美元从IREN购买算力,批准向UAE运送NVIDIA显卡,和Lambda达成数十亿美元协议
  • Perplexity付4亿美元(现金+股权)给Snap,用于在Snapchat里集成Perplexity,Snap的股价涨了15%

热点论文

其他阅读

  • 李飞飞在写Substack了,第一篇文章聊了空间智能(Spatial Intelligence),空间智能基于世界模型,有三个原则:可生成generative,多模态multimodal,可交互interactive。(Substack助推了一群反碎片化信息摄入人群的需求,顺势而为,越做越大



    Enjoy Reading This Article?

    Here are some more articles you might like to read next:

  • LeoTalk · Hacker News Daily · 2025.11.13
  • LeoTalk · Hacker News Daily · 2025.11.12
  • LeoTalk · Hacker News Daily · 2025.11.11
  • LeoTalk · Hacker News Daily · 2025.11.10
  • LeoTalk · Hacker News Daily · 2025.11.09