该文主要采用“知识蒸馏”方法对BERT(预训练语言模型)精简、优化,将较大模型压缩成较小的模型,最终目的是:提高模型推理的 … Continue reading 《DistilBERT,adistilledversionofBERT:smaller, faster,cheaperandlighter》阅读心得
该文主要采用“知识蒸馏”方法对BERT(预训练语言模型)精简、优化,将较大模型压缩成较小的模型,最终目的是:提高模型推理的 … Continue reading 《DistilBERT,adistilledversionofBERT:smaller, faster,cheaperandlighter》阅读心得