2025年12月12日,随着蓝色启动按钮的按下,深圳市百麒晟科技有限公司自有端侧 AI GPU 数据中心正式启用。此次升级将原有基于 CPU 的端侧 AI 训练与推理服务整体迁移至 GPU 服务器,标志着百麒晟在端侧智能领域完成了从“可用算力”到“高效算力”的关键跨越,也为面向大众的普惠 AI 奠定了长期发展的算力基座。

在端侧应用场景中,由于模型参数规模相对较小,一般集中在 10B 以下,如典型的 6B 级别模型约有 60 亿参数,行业普遍采用性价比较高的 CPU 算力,以较低成本满足端侧设备的 AI 训练与推理需求。相比之下,GPU 算力可以在同等功耗和机架空间下,将推理性能提升数十倍:在本次升级后,百麒晟端侧模型的 Token 生成速度由原来的每秒数个,提升至每秒数十个 Token,私人助理类模型的整体生成时延平均缩短约 3 秒,显著改善了用户的交互流畅度与响应体验。

“用户体验和资源投入永远是一道需要平衡的商业题,但在这道题里,我们选择把用户体验放在更高一行。”百麒晟产品工程部经理赵瑞表示,“端侧 AI 的价值在于‘随取随用、开口即答’,如果用户需要等待过长时间,技术再先进也会被体验抵消。因此,我们宁愿在算力侧多投入一些,把响应时间压下来,把交互质量提上去。”

GPU 算力既是刚需,也是刚性成本。为避免“一味堆算力、难以回本”的粗放模式,百麒晟在本次 GPU 数据中心建设中,充分结合自身在端侧模型上的长期实践经验:一方面选用针对推理场景优化的专业 GPU,另一方面通过模型裁剪、量化压缩、流水线调度等技术手段,将端侧模型在保证效果的前提下进一步“瘦身提效”。同时,百麒晟采用自建小型数据中心的方式,在可控规模内持续滚动投入,实现 GPU 在端侧 AI 场景中的规模化落地。

“普惠 AI 不能只停留在口号上,必须从算力成本这一最难的环节破题。”赵瑞表示,“通过端侧模型优化与小型 GPU 数据中心的组合,我们希望让更多普通用户也能用得起、用得稳高质量的端侧 AI 服务。这既是百麒晟对行业的长期承诺,也是我们推动 AI 普惠化的实践路径。”

随着端侧 AI GPU 数据中心的正式上线,百麒晟将继续围绕智能玩具、智能穿戴、轻量终端与垂直行业助手等方向,迭代端侧模型体系与算力架构,为“人人可及、随身可用”的普惠 AI 持续注入算力动能。