作者:佘慧敏
近来,中国人工智能(AI)公司深度求索(DeepSeek)发布的开源大模型DeepSeek-R1火遍全球,引发业内热议:全民AI时代是否已经到来?
过去两年多,以OpenAI为代表的美国公司开启并引领了人工智能大模型投资热潮,因为不缺芯片和算力,其主流思路是“越大越好”——以更强算力、更多数据训练更大的模型,来获得更高性能。这让大模型能源消耗巨大,训练成本惊人,也带来了商业推广难题:大模型投不起,小模型不好用。
DeepSeek改变了这一格局。他们在模型架构和训练过程中进行深度优化,在大幅降低计算资源消耗的同时,跻身世界顶级AI大模型之列,实现了“低成本”与“高性能”的兼得。同时,与OpenAI的闭源策略相反,DeepSeek免费开源其大模型,明示全部技术路线,更加推动了大模型技术从“奢侈品”向“日用品”的转变。
从技术进步角度看,低成本开源大模型开启竞争新赛道,AI的未来更值得期待。
低成本是技术普及的基本要求,买得起才能让千家万户用得上。小汽车、个人电脑、手机的普及都是如此,人工智能产业大概也不会例外。这几年,企业界和科技界已经为降低大模型成本作出了大量努力,DeepSeek模型正是其中的杰出成果,证明“此路可通”。
但大模型价格还没有降到底。在降本增效这条路上,DeepSeek并非终点,而是一个新的起点。开源代码、开放API(应用程序编程接口)及训练方法,吸引全球开发者参与技术迭代。1月20日R1推出后,各国AI技术人员掀起“DeepSeek复现热潮”。有美国科研团队声称,仅用几十美元成本租用云计算资源,便复现了模型。
DeepSeek使用专家混合架构MoE实现了更高的成本效益。而就在2月12日,字节跳动豆包大模型团队宣布推出全新的稀疏模型架构UltraMem,优化了推理性能,使得推理速度较MoE架构提升了2倍至6倍,推理成本最高可降低83%。
从商业应用角度看,DeepSeek重塑AI生态链,大模型展现了巨大商业潜力。
美国的AI龙头公司一方面夸大开源AI的安全风险,力图通过监管抑制开源AI,另一方面又用巨大投入抬高大模型准入门槛。这就形成了“金字塔”生态,科技巨头垄断大模型,中小企业依赖API。
而开源模型对于全球AI供应链至关重要,广大发展中国家尤其需要开源AI技术。开源模型让每个开发者都能轻松调用强大的AI工具,不再受大公司的约束,AI的进化速度和普及程度都明显提升。
连日来,上市公司接入DeepSeek模型的公告刷屏,令人惊呼“所有上市公司都在接入DeepSeek”。这体现了市场对于低成本、高性能开源大模型的渴求。当各行各业的开发者在开源框架上搭建文本创作、智能客服、医学影像诊断等各类应用时,新的生态系统已应运而生。
当然,开启全民AI时代,还面临许多挑战。开源模式依赖社区贡献,需建立激励机制避免碎片化,也要在开源与商业化之间取得平衡,以利于生态系统的可持续发展。让AI适配智能眼镜、手机等边缘计算设备,要有更好的模型压缩技术。通用模型在垂直场景易“水土不服”,需结合行业知识库定制化开发,要抓紧制定行业数据共享与安全标准。防范算法歧视与就业冲击,还要加强AI伦理教育,构建“技术—法律—社会”协同治理框架。
人工智能是引领未来产业的科技。我们不仅要做技术突破者,更要做规则重构者,要让人工智能大模型从“精英游戏”变成“全民红利”。(佘慧敏)
点击右上角微信好友
朋友圈
点击浏览器下方“”分享微信好友Safari浏览器请点击“
”按钮
点击右上角QQ
点击浏览器下方“”分享QQ好友Safari浏览器请点击“
”按钮