百麒晟上线端侧AI GPU数据中心 —— 为普惠AI构筑算力基座

2025年12月12日，随着蓝色启动按钮的按下，深圳市百麒晟科技有限公司自有端侧 AI GPU 数据中心正式启用。此次升级将原有基于 CPU 的端侧 AI 训练与推理服务整体迁移至 GPU 服务器，标志着百麒晟在端侧智能领域完成了从“可用算力”到“高效算力”的关键跨越，也为面向大众的普惠 AI 奠定了长期发展的算力基座。

在端侧应用场景中，由于模型参数规模相对较小，一般集中在 10B 以下，如典型的 6B 级别模型约有 60 亿参数，行业普遍采用性价比较高的 CPU 算力，以较低成本满足端侧设备的 AI 训练与推理需求。相比之下，GPU 算力可以在同等功耗和机架空间下，将推理性能提升数十倍：在本次升级后，百麒晟端侧模型的 Token 生成速度由原来的每秒数个，提升至每秒数十个 Token，私人助理类模型的整体生成时延平均缩短约 3 秒，显著改善了用户的交互流畅度与响应体验。

“用户体验和资源投入永远是一道需要平衡的商业题，但在这道题里，我们选择把用户体验放在更高一行。”百麒晟产品工程部经理赵瑞表示，“端侧 AI 的价值在于‘随取随用、开口即答’，如果用户需要等待过长时间，技术再先进也会被体验抵消。因此，我们宁愿在算力侧多投入一些，把响应时间压下来，把交互质量提上去。”

GPU 算力既是刚需，也是刚性成本。为避免“一味堆算力、难以回本”的粗放模式，百麒晟在本次 GPU 数据中心建设中，充分结合自身在端侧模型上的长期实践经验：一方面选用针对推理场景优化的专业 GPU，另一方面通过模型裁剪、量化压缩、流水线调度等技术手段，将端侧模型在保证效果的前提下进一步“瘦身提效”。同时，百麒晟采用自建小型数据中心的方式，在可控规模内持续滚动投入，实现 GPU 在端侧 AI 场景中的规模化落地。

“普惠 AI 不能只停留在口号上，必须从算力成本这一最难的环节破题。”赵瑞表示，“通过端侧模型优化与小型 GPU 数据中心的组合，我们希望让更多普通用户也能用得起、用得稳高质量的端侧 AI 服务。这既是百麒晟对行业的长期承诺，也是我们推动 AI 普惠化的实践路径。”

随着端侧 AI GPU 数据中心的正式上线，百麒晟将继续围绕智能玩具、智能穿戴、轻量终端与垂直行业助手等方向，迭代端侧模型体系与算力架构，为“人人可及、随身可用”的普惠 AI 持续注入算力动能。