# 大模型压缩
# 基础概念
模型压缩算法旨在将一个庞大而复杂的大模型转化为一个精简的小模型。
# 中/大型语言模型
中等规模的语言模型参数规模在1亿以下,大规模的语言模型参数规模在1亿以上。大规模的语言模型相较于中等规模的语言模型,具有更强的泛化能力和通用性,能够处理更复杂的任务。然而,大规模的语言模型在压缩和加速方面也面临着更大的挑战。
#
# 量化
量化是指将输入值从一个较大的连续集合映射到一个较小的有限集合的过程。它是降低大型语言模型内存成本和加速推理的最直接方法,特别是在支持低比特数据类型快速操作的硬件上。量化方法有许多优点,例如减少内存占用、提高推理速度等。