bert剪枝系列——Are Sixteen Heads Really Better than One?

1,概述   剪枝可以分为两种:一种是无序的剪枝,比如将权重中一些值置为0,这种也称为稀疏化,在实际的应用上这种剪枝基本没有意义,因为它只能压缩模型的大小,但很多时候做不到模型推断加速,而在当今的移动 … Continue reading bert剪枝系列——Are Sixteen Heads Really Better than One?