最近一周AI科技圈又发生了啥?

LeCun团队开源首个代码世界模型CWM

Meta FAIR推出代码世界模型CWM(Code World Model),参数量32B,上下文大小达131k token。不仅能生成代码、理解语义,还能模拟代码运行过程中变量的状态变化与环境反馈。在多个代码与推理任务上均有出色表现,如在SWE-bench Verified得分65.8%,领先所有开源同规模模型,接近GPT-4级别。此外,Meta FAIR开源了模型代码、训练细节以及多个阶段的权重检查点,为研究社区提供了重要资源

https://github.com/facebookresearch/cwm

英伟达开源 Audio2Face 模型:AI 实时生成面部动画,多语言口型同步

英伟达开源生成式 AI 面部动画模型 Audio2Face,包含模型、SDK 及完整训练框架。该技术通过分析音频特征,实时驱动虚拟角色面部动作,实现精准口型同步和自然情感表情。支持离线渲染和实时流式处理两种模式,已获行业广泛采用。例如,游戏开发商 Survios 和 Farm 51 工作室分别在《异形:侠盗入侵进化版》和《切尔诺贝利人 2:禁区》中集成 Audio2Face,大幅简化制作流程,提升角色真实感和沉浸体验

https://build.nvidia.com/nvidia/audio2face-3d

DeepSeek-V3.1-Terminus版本更新

DeepSeek-V3.1已更新至V3.1-Terminus版本,此次更新在保持原有能力基础上,针对用户反馈问题进行了改进,包括缓解中英文混杂、优化Code Agent与Search Agent表现等。新版本输出效果更稳定,各领域测评结果良好。目前,官方App、网页端、小程序及DeepSeek API模型均已同步更新,开源版本可在Hugging Face和ModelScope下载。

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus

英伟达官宣向OpenAI投资1000亿美元

英伟达与OpenAI于9月22日宣布签署战略合作意向书,计划在未来数年建设至少10吉瓦的AI数据中心,并部署数百万颗英伟达GPU,以支撑下一代模型的训练与运行。英伟达将按每1吉瓦的交付进度,逐步向OpenAI投资最高1000亿美元,并获得非投票股权。这是AI行业迄今最大规模的资金与硬件捆绑交易,被视为全球算力格局的一次重塑。首个1吉瓦的系统将于2026年下半年上线,采用英伟达最新一代的Vera Rubin平台

https://openai.com/index/openai-nvidia-systems-partnership/

智元机器人GO-1通用具身基座大模型开源

智元机器人宣布其通用具身基座大模型GO-1在GitHub开源,全球首个采用Vision-Language-Latent-Action(ViLLA)架构的具身智能模型。ViLLA架构通过引入隐式动作标记,弥合了图像-文本输入与机器人执行动作之间的语义鸿沟,使机器人能更好地理解人类意图并转化为精确动作。GO-1在多款机器人上验证通过,具备良好的可移植性,并在Genie Sim和Libero等仿真平台上取得领先性能。智元机器人还提供了Genie Studio一站式开发平台,助力开发者快速落地应用

https://github.com/OpenDriveLab/AgiBot-World

云栖大会发布6款模型及全新品牌,覆盖多模态全场景

云栖大会一口气发布了6款模型及1个全新品牌,涵盖文本、视觉、语音、视频、代码、图像等全场景。其中,Qwen MAX是万亿参数旗舰模型,在Coding和工具调用能力上登顶国际榜单;Qwen3-Omni是新一代全模态大模型,支持多种语言及方言输入输出,可处理长会议录音或播客;Qwen3-VL是视觉理解模型,可精确定位2小时视频内容;Qwen-Image实现多图参考编辑,强化一致性;Qwen3-Coder支持256K上下文,可修复项目级代码库;Wan2.5-Preview原生支持音画同步视频生成;通义百聆是企业级语音基座大模型,攻克复杂环境下语音落地应用难题。这些模型均已上线,可一键部署或调用API体验。

https://mp.weixin.qq.com/s/O-3bPs3tKXi0glYvFO9Myg

华为与浙大联合发布DeepSeek-R1-Safe基础大模型

华为技术有限公司与浙江大学联合发布了国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型。该模型构建了全流程安全后训练框架,首次实现千亿级参数满血版大模型安全训练,针对有害问题整体防御成功率近100%,在通用能力基准测试中性能损耗仅1%。模型已在多个社区全面开源

https://github.com/ZJUAISafety/DeepSeek-R1-Safe

蚂蚁集团开源智能编程助手 Neovate Code

蚂蚁集团支付宝体验技术部正式开源智能编程助手 Neovate Code,其具备对话式开发、代码重构、Bug修复等功能,支持多种模型和提供商,如OpenAI、Anthropic、Google等。Neovate Code以CLI工具形态提供,未来将支持多种客户端形态。易于扩展,有内置插件系统,可快速创建个性化代码智能体。目前,Neovate Code已集成到蚂蚁集团和快手等公司的开发流程中

https://github.com/neovateai/neovate-code

生数科技发布Vidu Q2,推动AI视频生成进入“演技时代”

生数科技正式发布新一代图生视频大模型Vidu Q2,以“细微表情生成”为核心,实现从“生成视频”到“生成演技”的跨越。Vidu Q2在极致表情变化、推拉运镜、生成速度及语义理解方面取得突破,能够生成媲美人类的真实表演,适用于影视、短视频、广告等领域。其技术突破得益于多模态理解与生成技术的融合,通过精细解构人体面部动作单元,驱动角色产生符合情感逻辑的运动

https://mp.weixin.qq.com/s/P3IU_PtUWaEVPk5muPSt8g

美团发布推理大模型LongCat-Flash-Thinking

美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking,该模型在逻辑、数学、代码、智能体等多领域推理任务中达全球开源模型最先进水平。其采用领域并行强化学习训练方法,解决强化学习混合训练稳定性问题;异步弹性共卡系统实现训练提速并确保样本策略一致性;创新性“双路径推理框架”提升智能体推理能力;基于专家迭代框架的数据合成方法增强形式化推理能力,已在HuggingFace、Github全面开源
LongCat-Flash-Thinking 的训练流程

https://github.com/meituan-longcat/LongCat-Flash-Thinking

Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐