(相关资料图)
中国经济网北京7月8日讯(记者 王惠绵) 近日,墨芯人工智能首次发布SparseOne S100在浪潮服务器中的测试数据,S100是全球首个高稀疏率AI计算卡,运行多个AI主流模型,性能表现为国际大厂主流AI推理卡的6倍。
值得注意的是,这是墨芯首次披露S100运行能够实现单卡推理大模型,突破单卡难以满足高算力需求的瓶颈,有效解决业界对大模型,普遍采取多机多卡分布式的方式,完成推理所带来的时间长、功耗高、成本高等问题。
近年来新兴的NLP模型——T5,曾被称为“全新NLP SOTA预训练模型”,以其高参数量,让许多计算卡“望而却步”。但在本次测试中,S100在单机单卡环境下就能运行T5-8B模型,算力高达141.8 SPS。
除了高算力的优势,相较于当前国际大厂主流推理卡单卡只能支持百亿参数级别的模型,墨芯S100可以支持千亿参数级别的模型。
在单机单卡环境,不影响精度的前提下,S100运行BERT模型,SST-2数据集,性能达12176 SPS;S100运行ResNet-50模型,ImageNet数据集,性能达28260 FPS。在主频800 MHz的测试环境中,S100运行ResNet-50模型时算力达33197 FPS。浪潮内测主频为700 MHz。
所有测试均是在实际环境中,S100计算卡能够直接投入实际场景的使用,拥有较高的应用价值。同时还能满足高能效比、低功耗和高精度,为企业大幅降低部署成本和运维成本。
据了解,S100超高性能源于稀疏化计算。而稀疏化的原理是指,在AI矩阵运算中,将无效元素剔除,极大加快计算速度,降低计算成本。2021年8月,谷歌人工智能主管Jeff Dean在一次TED演讲中表示,稀疏化是下一代AI架构中最重要的趋势之一。
墨芯作为稀疏化产业实践者,其稀疏化计算解决方案具有广阔的生态前景。墨芯人工智能创始人兼CEO王维表示,“墨芯将构建涵盖软件、硬件、应用的AI计算平台,与研究人员、开发者、软件开发商等合作伙伴一起,为各行各业用户提供高性能AI计算服务,共同构筑场景丰富、生机勃勃的稀疏化生态。”