为了协助企业以具成本效益与永续性的方式,善用效能持续成长、遵循「超摩尔定律」的 GPU 算力资源,数位无限 INFINITIX 旗下 AI-Stack 解决方案,能够运用更先进的 AI 算力调度及优化技术,打造弹性化的 AI 基础设施,进而加速从模型训练、推论服务,到生成式人工智慧(GenAI)应用,以及代理式人工智慧(Agent AI)四部曲的 AI 转型之旅。
数位无限 INFINITIX 执行长陈文裕表示,NVIDIA AI 晶片的运算效能早已超越摩尔定律,其晶片效能在 6 年间便成长了 26 倍。随着 2024 年 NVIDIA H200 晶片的推出,不仅展现出今后 GPU 搭载更多更快记忆体的发展趋势,更全面揭开了全球进入高效能 AI 建设时代的序幕。
然而 GPU 效能翻新的副作用就是採购成本不断攀升,从 2014 年 NVIDIA K80 与 2022 年 H100 之间的价差高达 13 倍,充分反映出成本压力的剧增。陈文裕建议指出,如何有效运用 GPU 算力无疑成为当前企业推展 AI 应用的一大关键课题。
除了 AI 算力管理,全面性 AI 基础设施管理才是关键
当前 AI 的演进之路正朝着模型训练、推论服务、GenAI 与 Agent AI 等四部曲迈进,这中间需要充沛 GPU 算力作为 AI 应用开发与部署的有力后盾。但由于每阶段各有不同算力调用情境,致使当前 AI 基础设施管理面临了缺乏控制和优先顺序、利用率低且成本高、能见度与决策不佳,以及 GPU 资源不敷所需等挑战。
陈文裕表示,因应上述挑战,除了做好 AI 算力资源的管理外,更全面性的 AI 基础设施管理才是重中之重。对此,企业必须做好支援混合式工作负载、算力高低配置及支援跨平台 AI 晶片等工作。数位无限旗下 AI-Stack 不仅能做好这些工作,更是协助企业打造革新性 AI 基础设施的最佳解决方案。
除了支援 AI 学习训练任务之外,AI-Stack 并同时支援高效能运算(HPC)工作负载。该平台巧妙结合容器化技术、HPC 及分散式运算的概念,将其应用于深度学习领域,进而发挥运算效能与成本兼顾的最大综效。
在算力配置上,AI-Stack 支援各种算力组合,以满足不同情境的算力需求,并能将老旧版本的 GPU 纳进 GPU 资源池中进行使用。在跨平台算力资源的整合上,除了支援 NVIDIA 及 AMD 全系列 GPU,数位无限并且以台湾优先的概念和创鑫智慧 Neuchips 等台湾 AI 加速器/NPU 厂商,乃至群联 aiDAPTIV+ 方案共同打造相互合作的生态系。
支援单片切割与多片聚合,展现强大 GPU 随需调度能力
AI-Stack 平台具备 GPU 单片切割、多片聚合和跨节点运算三大核心技术,展现强大的 GPU 随需调度能力。陈文裕强调指出,除了 NVIDIA 收购的 Run:ai 之外,当前全世界具备单片 GPU 切割技术能力的厂商十分稀少。透过该技术,便能发挥更高算力资源使用率与更低运行成本兼顾的绝佳效率,这对 GPU 资源有限但有多项小模型任务处理需求的企业而言,无异一大福音。
至于 GPU 多片聚合技术,能大幅提升运算效能,尤其对超大型模型应用助益甚大。再者,透过跨节点运算技术,AI-Stack 便能依需求将训练任务分派至多个节点进行运算,再辅以分散式训练技术,将多个容器组成能平行处理巨量资料的训练群组,大幅缩减模型训练的负荷与时间,堪称是分散式深度学习训练或 HPC 工作负载的利器。
採分层式架构的 AI-Stack 提供从实体丛集层到控制层,再到开发与生态层的全方位服务,一站式满足各种 GPU 管理需求。在实体层,该平台透过独家硬体控制技术,能同时对 GPU 晶片/伺服器、储存装置及网路设备进行精準控管。
在控制层,该平台提供集中式管理所有运算资源的单一管理入口与监控介面,管理者可以设定控管政策与原则,进行包括配额、安全、租户与计费等全方位控管,再加上基于角色之存取控制机制,能确保资料与资源的最佳配置与安全性。
在开发层,该平台提供了以 Kubernetes 与 Docker 为基础,并有助开发者进行模型设计、训练、实验与部署的工作环境。使用者(包括开发工程师、AI 科学家、终端用户及第三方合作伙伴)可基于特定权限与管制政策进行 AI 容器或自助服务的开通。
陈文裕补充表示,不论打造高可用性的生产环境,抑或服务不中断,皆可在开发层里加以满足。此外,Web-based 的 AI-Stack 控制台可以实现自动化管理与服务开通作业,即使对于底层软硬体技术原理不擅长的人,也能透过简单的政策制定与直觉化的点选动作,让过去以週计的 AI 服务开通作业缩短至以分钟计的程度。

打造 GPU 共享平台,助企业与算力中心落实深耕产业 AI 应用目标
多年来数位无限致力透过 AI-Stack 的机器学习营运(MLOps)能力,加速 AI 模型的开发、训练及推论,实现从模型开发、微调与训练到提示工程、服务生产环境等全 AI 应用生命週期管理的自动化与简化,该公司因而能将各种 AI-Stack 开发的 AI 应用深耕在不同产业里。
如今 AI-Stack 已广泛应用至各种产业,该平台客户大致分成企业用户与算力中心客户两大类。其中企业客户涵盖半导体、製造业、金融业、学术、能源、交通、医疗等领域。数位无限并参与数位发展部发起的「数位产业跨域软体基盘暨数位服务跃升计画」,成功完成 GPU 算力共享平台的建置,对于加速台湾新创的 AI 应用落地有莫大帮助。
在学术界,有许多爱用 AI-Stack 的重要客户,包括成大、北科大、政大及义守等大学。陈文裕满怀感谢地追忆指出,其中成功大学是 AI-Stack 平台的第一个客人,并採用 AI-Stack 来打造成大 AI 资源平台的管理核心。由于数位无限是台湾 AI 云(TWCC)之原型系统「云端 GPU 软体服务」(TWGC)的创始开发团队成员,所以其操作介面对于申请过国家高速网路中心(NCHC)的大专院校来说十分熟悉,对于加速 AI 资源导入与新系统上线的助益不小。
除了视旅科技结合数位无限 AI-Stack,联合推出 AI-OCR 解决方案外,精诚集团子公司「内秋应智能科技」为了打造各产业专属创新应用的 AI 服务平台,特别以自家 Advanced RAG 技术为基础,同时结合数位无限 AI-Stack、国科会 TAIDE 模型及 NVIDIA GPU 晶片组成 AI 一体机。
此外,由日本代理合作伙伴 Macnica 推广下,成功导入日本 TEL 半导体製造设备领导厂商及知名 PCB 钻头製造商佑能集团(Union Tool)也成为 AI-Stack 的爱用者。该公司运用该平台的预设政策,成功实现 GPU 资源分配与管理的自动化,并免去了手动分配 GPU 资源供容器或开发环境使用的负荷与麻烦。
伙伴生态系大串联,逐步打开国际市场通路
数位无限在台有三家主要的通路代理商,除了最早的零壹科技之外、还包括茂伦与敦新科技,如今茂伦是全球第五大 IC 半导体通路设备商 Macnica 的子公司。今年的 GTC 大会上,首次参展的数位无限便是在茂伦及仁宝电脑的摊位上展示自家 AI-Stack 平台。
在此之前,数位无限与仁宝携手推出搭载 AI-Stack 的 GPU 伺服器方案,提供「启动即用」的 AI 模型推论服务。陈文裕进一步指出,该公司与仁宝及其他合作伙伴推展 AI-Stack 平台的一个重要目标就是,同时实现硬体的「开箱即用」,以及软体/模型的「启动即用」。
数位无限正积极结合不同专长的通路代理商扩大市场版图与品牌知名度,目前海外市场以日本、韩国、马来西亚、泰国为主,目前正积极规划将触角延伸至菲律宾、印尼、中东、东欧及美国。预计,今年第四季有望完成欧美市场通路布局。
该公司接下来的主要市场经营策略,将以逐步打造的通路系统为基础,串联 ISV 独立软体开发商、伺服器、储存、边缘及 AI 应用等合作伙伴生态系统,进一步拓展国际市场的通路,并以 CSP 云端服务供应商及算力中心作为接下来的锁定目标。
(首图来源:科技新报)