NEWS AND INFORMATION

新闻中心

首页 >> 新闻中心 >>公司新闻 >> 智能周报|下一代人工智能还需要那么多算力吗?
详细内容

智能周报|下一代人工智能还需要那么多算力吗?

  

智能周报|下一代人工智能还需要那么多算力吗?

  1月23日★★★,有Meta员工在海外匿名社区Blind爆料称,DeepSeek-V3模型让Llama 4 在基准测试中相形见绌,并且DeepSeek仅花了550万美元,这让Meta的生成式AI团队陷入恐慌。扎克伯格曾在2024年9月接受采访时称,Llama 4使用了超过10万块GPU。如果按照单块平均价格2★★★.5万美元计算★★★,其成本在25亿美元左右。此外★,还要再加上服务器★、交换机以及训练过程中的电费成本。「新皮层」获得的消息称,这一成本是国内一些大模型初创公司去年决定停止「预训练」方向的一大原因,它们连公司估值都达不到这一规模,更不要说融资规模。

  下一代Scaling(扩展)方向:在预训练和推理阶段的Scaling Laws(扩展定律)之外,探索Multi-Agent(多智能体)和Test-Time Training(测试时间训练,用以动态调整模型参数)等方向。

  1月23日,OpenAI发布智能体Operator,这是一个可以替用户执行任务的AI智能体:它可以查看网页★★★,并通过输入、点击和滚动的方式交互。OpenAI称,Operator可以处理各种常见的浏览器操作,比如填写表格、订购杂货★,甚至是创建表情包★★★,帮助用户节省日常任务时间。

  1月23日★★,字节跳动回应称,公司非常重视人工智能领域的发展与投入,但相关预算与规划传闻并不正确★。

  1月20日★★★,月之暗面发布多模态推理模型k1★★.5,也是第3个k系列模型。其2024年11月推出的k0-math只接受文本输入,专注于数学领域;随后12月推出的k1模型具备了视觉能力,还可以处理物理、化学问题;k1.5模型同样具有视觉能力★★★,能力泛化至代码和通用问题,即具备了两种模态的推理性能★★。

  下一代感知:找到统一生成和理解的方法,表征和压缩真实世界,构建「世界模型」。

  1月21日★,美国总统特朗普宣布一项名为「星际之门」(Stargate)的人工智能基础设施投资计划,内容是建设下一代AI所需要的物理与虚拟基础设施,包括分布在全美的数据中心★★★。目前,该计划的首个数据中心已在德克萨斯州开工建设,未来计划在全美范围内建立更多园区。

  特朗普提出5000亿美元算力计划,OpenAI和软银分别出资190亿美元★★;

  软硬一体的模型设计★:从软硬一体出发,探索Transformer+GPU之外的模型设计★,发挥下一代硬件的能力★。

  Mensch表示,Mistral能以更低成本运行AI模型★★★,希望吸引想要将数据留在欧盟的公司。然而,公司仍面临资金更充裕的美国对手的挑战,例如Anthropic和OpenAI,后者估值已达1570亿美元。Mensch强调公司资金充足,但他也表示,为了扩大规模,公司可能会寻求新的融资机会。

  1月23日★★★,Meta首席AI科学家Yann LeCun在2025达沃斯世界经济论坛上表示,未来3到5年内,将会出现一种「新的AI范式」,其能力将远超现有的AI系统。LeCun认为,目前的AI系统在以下4个方面做得还不够好★★:理解物理世界★★、拥有持久记忆、推理和复杂规划。「未来几年内将会发生新的AI革命,我们可能需要给它起个新名字★★,因为它可能不会像我们今天理解的那样是生成式的。」LeCun说★,他认为大语言模型的「保质期」只有3到5年。LeCun称其团队正在开发不同范式的AI,该系统可能具有一定程度的常识,通过观察世界并与之互动来学习世界是如何运作的★★。Meta在2024年2月发布了一种非生成式的世界模型架构V-JEPA★。

  「星际之门」由人工智能初创公司OpenAI、日本软银公司★★★、美国甲骨文公司、阿布扎比AI基金MGX共同投资。软银CEO孙正义将担任星际之门董事长,而半导体公司Arm、微软、英伟达、甲骨文和OpenAI将成为「关键的初始技术合作伙伴」★。

  特朗普提出5000亿美元算力计划,OpenAI和软银分别出资190亿美元

  1月17日,有报道称★★★,Character AI近日开始在其桌面端和移动网页版应用中测试全新的游戏功能★,以增加用户黏性。这项功能目前仅向付费用户及部分免费用户开放★,首批推出的游戏包括「Speakeasy」和「War of Words」。在「Speakeasy」中★★,用户需要在避免使用5个相关禁用词的前提下想方设法让AI角色说出指定单词。例如,要让AI说出「croissant」(可颂),但用户不能使用「pastry」(糕点)★★★、「butter」(黄油)、「bake」(烘焙)、「French」(法式)和「flaky」(酥脆)等词汇。「War of Words」则是一场由AI当裁判的辩论对决,用户需在5轮比赛中与AI角色比拼辩论技巧★★。

  1月20日,DeepSeek发布DeepSeek-R1开源模型,并且公开了全部训练技术★★★。R1模型对标OpenAI的o1模型★★★,在后训练阶段大规模使用了强化学习技术。DeepSeek宣称★★,R1在数学、代码、自然语言推理等任务上比肩o1。同时,R1的API价格不到o1的4%★★★。一般而言,监督微调可以为模型的后续训练(如强化学习)提供一个良好的初始状态。DeepSeek团队指出,即使不借助监督微调★,直接强化学习,模型也表现出了「反思」能力。另外,DeepSeek-R1遵循MIT License★★★,允许用户通过蒸馏技术借助R1训练其他模型——通过让较小的模型模仿R1的行为★★,将R1的知识转移到小模型上。

  1月22日,路透社报道称,字节跳动计划把1500亿元(约206.4亿美元)资金中的一半投入海外人工智能基础设施建设,重点集中在数据中心建设和网络设备购置方面。这笔支出主要流向芯片制造商华为、寒武纪以及英伟达★★★。《金融时报》则报道称★★,字节跳动预计在2025年投入400亿元(约55亿美元)用于在中国国内采购人工智能芯片★★,这一金额较去年翻倍。此前,《金融时报》曾报道字节跳动计划投入120亿美元用于AI基础设施建设,The Information则称字节拟投入最多70亿美元用于采购英伟达芯片★★★。

  爆料的Meta员工表示,公司领导们正在担心无法为生成式AI部门的高成本辩护★★。因为部门领导们的薪酬比DeepSeek-V3的训练成本还高,而且这样的领导有几十个★★★。「它本该是个专注于工程的小团队,但因为很多人想来这里捞取好处,人为地抬高了招聘人数★。」据称,Meta的工程师们正在疯狂地研究DeepSeek★★★,并尽可能复制。

  1月23日,有报道称★★,字节在1月下旬正式设立代号为「Seed Edge」的研究项目,核心目标是比预训练和大模型迭代更长期、更基础的AGI(通用人工智能)前沿研究★。该项目已拟定五大研究方向:

  1月25日,有报道称★,欧洲人工智能公司Mistral AI首席执行官Arthur Mensch在2025达沃斯世界经济论坛上表示公司「不会出售」,并计划推进IPO。同时,Mistral正扩展至亚太市场,计划在新加坡设立办事处。Mistral成立于2023年★,由Google DeepMind和Meta的前研究人员创立★★,目标是成为OpenAI在欧洲的竞争对手,其生成式AI模型Le Chat受到广泛关注。去年★★★,公司从General Catalyst等投资者处筹集到6亿欧元★★,估值达到58亿欧元。

  1月22日,有报道称Google已确定将再向Anthropic投资超10亿美元,以进一步增持该公司股份★★★。此前,Google已向Anthropic投资20亿美元并持股10%。双方还签订了大额云服务合同。本轮融资后Anthropic的估值将达到600亿美元,成为继SpaceX、OpenAI★★、Stripe和Databricks之后第五大最有价值的美国初创企业★★★。知情人士称,Anthropic 2024年的年化收入已达到10亿美元★★,较上年同期增长约10倍★,不过目前仍未盈利。

  Operator由一种被称为计算机使用代理(Computer-Using Agent, CUA)的新模型驱动。CUA将GPT-4o的视觉能力与强化学习的高级推理能力相结合,经过训练可以与图形用户界面(GUI)交互。具体来说,Operator可以(通过屏幕截图)「看见」★、并与网页上的按钮、菜单、文本框等GUI元素「交互」★★,就像人类使用鼠标和键盘操作一样★★★。如果遇到问题★★★,Operator可以利用其推理能力自我纠正,遇到故障卡顿、需要帮助时,它会将控制权还给用户★★,就像自动驾驶一样。

  下一代范式★:在反向传播★、Transformer架构、预训练+对齐的模式之外,探索更高效的模型结构和学习方法。