随着OpenAI和微软在这周进入AI浏览器大战，现在的战局已经是：

Perplexity的Comet：最近也免费了
The Browser Company的Dia（还有之前的Arc，很多人还在用）：前段时间公司被Atlassian（做Jira的公司）
Opera的Neon
Google的Chrome：最近在美国推，其他地区暂无
OpenAI的Atlas
Zen Browser：开源的
Fellou

AI功能基本都是集中在侧边栏聊天、划词什么的，相对来说还是基础了一些，一些有半自动化的功能，但是场景也很限制，全自动化更是远了。并且这些产品基本都是基于Chromium（Chrome的开源）二开的。

在思考安全问题，这些浏览器无一例外都面临了类似提示词注入（Prompt Injection）的风险。假设一下，一个页面上看不到但是隐含了一下内容，是被精心设计好用来针对大模型的，那有可能在摘要一个页面的时候被攻击了，大模型有浏览器的控制权，类似CSRF之类的攻击就可以轻易实施了。

技术研究/技术突破

ChatGPT的用户访问量过去一年持续下降，而Google的Gemini增加了12.9%。不过大头还是在ChatGPT
Galileo的Mastering AI Agents
Glean的Building AI agents for the enterprise

NVIDIA Inception计划

Starcloud是NVIDIA的Inception计划（面向AI初创的加速计划）成员。starcloud计划部署搭载了H100的卫星，在太空中建设数据中心。几个点：

能源几乎无限：靠太阳能驱动
冷却高效：利用真空环境做散热，通过红外辐射排热
环境效益大：发射的碳排放只发生一次，长期看可减少约10倍CO2排放

Opinion：属于科幻照进现实系列了，不过维修成本怎么计算呢？数据传输问题也需要考虑，带宽、速度等，商业模式暂时也不太明朗。

产品&模型发布

DeepSeek推出DeepSeek-OCR，上周发了，不过还是再发一次，DS提出了将文本转成图片，再用图片输入到大模型，可以达到消耗更少的token。算是这周比较多人在讨论的一个东西
OpenAI推出浏览器Atlas
微软的Edge浏览器支持Copilot模式
Anthropic将Claude记忆推送到pro和max，可以区分工作和个人的记忆了（9月份的时候推出只对企业和Team开放）
腾讯开源世界模型Hunyuan World 1.1（HunyuanWorld-Mirror），技术报告
Claude Code可在Web上使用了
Anthropic推出Claude for Life Sciences，新的科学研究平台连接器、AI实验技能和生物医学任务的性能提升
Google推出 Google Skills，包含3000 AI和技术课程
Fish Audio推出Fish Audio S1
PokeeResearch，7B的SOTA模型，用于Deep Research
Lightricks推出LTX-2，开源视频模型，可以生成50fps+十几秒长度的4k
松延动力（Noetix Robotics，北京的机器人公司）推出家庭友好的机器人Bumi，1400美元（9998元）的价格非常便宜了
宇树（Unitree）推出了H2。也推出了面向教育的宇树四足机器人实训平台
亚马逊推出Blue Jay用于仓储分拣
加速进化（Booster Robotics，北京的公司）推出k1，针对孩子和教育
苹果推出UltraCUA基础CUA模型
Huggingface发布Hugging Chat
Anthropic推出Sandbox Runtime，是开源的，不需要容器，直接对进程施加文件和网络限制

投资&商业

OpenEvidence（号称ChatGPT for doctors）估值达到60亿美元，仅仅三个月估值就翻了一倍。其模型基于可信医学资料（如美国医学会杂志，新英格兰医学杂志等）训练，主要是帮助医生和护士获取专业的医学知识，今年7月以来，月度咨询量飙升到1500万次
OpenAI收购Software Applications Incorporated（sky背后的公司），更多开始布局CUA？
泄漏的文件表示Amazon计划在美国用机器人替换掉600K+的工作岗位

热点论文

Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning：蚂蚁集团的Ring-linear系列模型，一种高效的长上下文推理模型架构
UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action：苹果新推出的基础CUA模型，主要点是将GUI操作（点击、滚动）和程序化调用（API、工具函数）结合的混合动作（Hybrid Action）
WALT: Web Agents that Learn Tools：web agent框架，让agent学会网站自带的功能，而不是一步步去点击输入。一开始利用工具构建智能体去做工具发现、构建和验证，最后再用浏览器智能体使用这些工具
Tensor Logic: The Language of AI：提出一种新的编程语言Tensor Logic，用来统一神经网络（Neural）和符号推理（Symbolic）两大AI范式，期望成为C for AI的底层语言标准
Robot Learning: A Tutorial：牛津和Hugging Face发的
Qwen3Guard Technical Report
Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report：早稻田大学发布轻量级ColBERT检索模型，17M/32M的参数却超越ColBERTv2，在低维嵌入下保持高性能，并大幅节省内存和算力，适合边缘设备高效检索
A2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning
BitNet Distillation：微软提出将全精度模型蒸馏为三值权重网络（BitNet），结合子层归一化与注意力蒸馏，实现极大内存节省与更快CPU推理速度。
RAG-Anything: All-in-One RAG Framework：港大学提出统一多模态文档的 RAG 框架，通过双图结构与跨模态混合检索，实现对长篇异构证据的统一推理
LLM-guided Hierarchical Retrieval：构建语义层级树并由大模型引导逐层检索，在无需微调的情况下实现对复杂推理任务的高效对数级检索。
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM：NVIDIA提出OmniVinci，通过音频与视觉嵌入对齐及多模态对话数据优化，以更少训练token超越更大规模的全模态模型。
Enterprise Deep Research: Steerable Multi-Agent Deep Research for Enterprise Analytics：Salesforce提出透明多Agent框架，结合任务管理和可控上下文工程，实现企业级“深度研究”，在多项基准超越LangChain方案且节省4倍token。

其他阅读

minio停止发布Docker镜像，辩证的看待，开源商业化的困境，但是至少它还是开源的，但是团队已经失去社区的信任了，谁知道后续LICENSE是否会出现变化。不过哪怕追逐商业化，这个举措依然不是一个好的决策，包括发现的一些CVE，现在也没办法官方公开的修复镜像了，会导致很多安全问题。
CME 295 - Transformers & Large Language Models：斯坦福大模型课程
cto.new声称完全免费的AI Code Agent，用融资（目前570万美元融资）来支撑。希望成为基础设施的方向后再考虑盈利。目前采用等待邀请制。可以用SOTA模型，他们也会自己优化和部署模型

LeoTalk AI周知 6: AI浏览器大战