改进词嵌入模型
2024年5月22日至24日

11111本研究提出了一种改进文本嵌入模型的方法,该方法通过在添加专家评分的小型数据集上进行对比微调来改进文本嵌入模型。该方法侧重于增强语义文本相似性任务并解决文本检索问题。该方法使用基于专家增强评分的软标签来微调嵌入模型,在保留其通用性的同时,确保检索能力得到提升。本文使用来自在线购物网站的问答数据集和八个专家模型对该方法进行了评估。结果表明,该方法在海量文本嵌入基准 (MTEB) 的各种检索任务中,在多个指标上的表现均优于基准模型。该方法经济高效,适用于实际应用,尤其是在标注数据稀缺的情况下。 20250707-170750.jpeg 表 1 和表 2 分别展示了不同模型在 MTEB 检索任务中不同数据集上的 nDCG@10 和 mAP@10 指标的评估结果。Benchmark、Soft-1、Soft-2 和 Hard 标签模型的平均 nDCG@10 得分分别为 39.675、40.633、40.334和37.574,标准差分别为 29.963、28.552、28.167 和 27.081。 Benchmark、Soft-1、Soft-2 和 Hard 标签模型的平均 mAP@10 分别为 34.419、35.323、35.04和32.243,标准差分别为 29.693、28.587、28.221 和 26.585。Soft-1 在 nDCG@10 方面优于 Benchmark 的胜率为 50.37%,在 mAP@10 方面优于 Benchmark 的胜率为 55.38%。这再次证实了没有一种文本嵌入方法在所有任务上都占主导地位(Muennighoff et al.,2022)。与 Benchmark 模型相比,Soft-1 和 Soft-2 模型表现出色,得分更高,标准差更小,表明它们在各种数据集上均表现良好且性能稳定。另一方面,硬标签模型的 nDCG@10 和 mAP@10 得分与基准相比较差;尽管其标准差较小。使用 Soft-1 和 Soft-2 标签进行微调后看到的改进可能归因于微调模型中各向异性的降低(这意味着文本嵌入在微调后在向量空间中占据了更大的锥体)。保留集上的结果进一步证实了这一特性:Soft-1 和 Soft-2 模型在精确召回 (PR) 曲线下的面积方面具有更好的结果(参见 4.3 节)。不相关对的文本嵌入随后分布在更大的向量空间范围内。