Habana的SDKSynapseA支持使用PyTorch和DeepSpeed 来加速 LLM训练和推理。SynapseAl图形编评器可优化图形中所累积的操作的执行( 如算子融合、数据布局管理◆◆、并行化、流水线、内存管理◆、图优化等2023大模型专题:英特尔最in大模型专栏(附下载),。)
本文基于两种不同规模但参数均达数十亿的 BLOOMZ 模型(批大小为1个样本)进行了实验测试,两种模型的参数大小分别为:
BLOOM 是一个拥有 1760 亿参数的自回归模型,训练后可用于生成文本序列。它可以处理 46 种语言和 13 种编程语言。作为Bgscience计划中的一个开放科学项目,BLOOM 的设计和训练吸引了世界各地众多研究人员和工程师的共同参与专题专栏◆。BLOOMZ·是遇近发布的、与BLOOM架构完全相同的模型。它是BLOOM基于多个任务的调优版本,具有更出色的泛化和零样本“能力◆◆。
奔腾的时代是值得讴歌的正能量。从《新千里江山图》系列专题报道到系列纪录片《百年家书》,从《党旗在基层一线高高飘扬》到《无穷青年》,从《◆◆“2022,他们正能量满格”专题报道》到《了不起的中国创造(第二季)》,从《中国考古大会》到《田埂上的造梦师》……指尖汇聚正能量,网络劲吹文明风。在这些主题鲜明◆◆、内容生动的专题专栏里,呈现着贯穿全年、融通古今的中国力量。一张张图片、一行行文字、一段段音视频,记录着波澜壮阔的大时代,点赞着团结奋进的新征程◆。
本节将提供 BLOOMZ 在 Gaudi2 和第一代 Gaudi 上的基准测试结果。虽然 Gaud;2 和第一代 Gaud; 的内存都不小,但由于模型大,单个设备仍无法容纳单个BLOOMZ 实例。为解决这-问题,本文使用了深度学习优化库 DepSpeed来实现多种内存和速度优化,进而加速模型推理并使模型与设备适配。本文方案需依赖 DeepSpeed-inference”,它引入了诸如模型(或流水线)并行m等多个功能特性,可充分利用可用设备。对于 Gaud;2,则使用了已添加 HPU 支持的 Habana的 DeepSpeedr 分支◆◆。
随着大语言模型(Large Language Model, LLM) 的规模来越大,在生产环境部和使用这些模型来进行推理也变得越来越具挑战性,为应对这些挑战,无论硬件还是软件,都经历了多次创新。下面,我们将一同探索如何有效克服这些挑战.
无论是训练◆“还是推理“场景,这大模型都对内存和速度提出了新挑战。即便使用16 位精度。一个实例所需的内存仍高达 352 CB◆◆!目前具有如此大内存的设备可能很难找到,但像 Habarga“Gaud◆◆“2这样的先进硬件却足以让BLOOM和BLOOMZ模以更低的时延执行推理,
Gaud2是 Habana Labs 设计的第二代 A 硬件加湾器。单个服务器包含8 张加速卡称为 Habana 处理单元2023大模型专题:英特尔最in大模型专栏(附下载)。,即Habana ProcessinaUn业,简称为HPU),每张卡内存高达 96 GB,可提供足够的空间来客纳大模型,然而,如果计算遗度很慢,那么为大模型提供大内存的意义也不大。Gaud2 的计算速度也非常出色。Gaud*2 与 GPU 的主要区别在于它的架构能让加速器并行执行通用矩阵乘法(GeMM) 和其他运算,从而加快深度学习工作流。这些特性使 Gaud2 成为 LLM训练和推理的理想选择。
海量/完整电子版/报告下载方式:公众号《人工智能学派》返回搜狐2023大模型专题:英特尔最in大模型专栏(附下载),查看更多