NLP高频面试题(四十)——什么是 BitFit?
BitFit(Bias-term Fine-tuning)是一种参数高效的微调方法,专注于在预训练模型中仅调整偏置项(bias term),而将其他参数保持不变。这种方法在自然语言处理领域,尤其是在中小规模数据集上,展现出了与全量微调相媲美的性能,同时显著减少了计算资源的消耗。
什么是 BitFit?
BitFit 的核心思想是:在微调阶段,只更新模型中的偏置项(bias term),冻结其余所有参数。偏置项通常占模型总参数量的不到 0.1%,因此这种方法极大地降低了训练成本和显存占用。BitFit 最初由 Elad Ben Zaken 等人在 2021 年提出,并在 BERT 等 Transformer 模型上进行了验证。
BitFit 的优势
- 极低的参数更新量:只需更新偏置项,通常不到模型总参数的 0.1%。
- 高效的训练过程:减少了训练时间和显存占用,适用于资源受限的环境。
- 良好的泛化能力:在中小规模数据集上,性能与全量微调相当,有时甚至更好。
- 易于实现:只需在训练时设置