📚 摘要
长度影响复杂:简单增加句子长度(即使内容相关)并不总能提升相似度,有时甚至会降低,效果依赖于模型和加长方式。
相关性效果各异:增加相关内容对相似度的影响因模型而异。部分模型(如 Jina-v3, BGE-Large)在特定场景下(实验 2、4)会提升相似度,而 BGE-M3 在某些情况下(实验 2)对相关/不相关加长均表现为相似度下降。普遍规律是,添加不相关内容通常会降低相似度(实验 2、4)。
关键词对于bge-m3是强信号:共享核心关键词能显著提升相似度得分,有时甚至能掩盖部分语义差异或无关“噪音”,对于其他模型也有不小的影响。
模型差异显著:不同 Embedding 模型对上述因素的反应存在明显差异。例如,Jina-v3 在某些双边相关加长场景下表现出相似度提升,而 BGE 系列模型则倾向于下降。BGE-M3 在实验 5 中对添加无关“噪音”后的相似度甚至略微上升,表现出独特的鲁棒性(或敏感性)。
RAG 启示:实验结果警示我们不能迷信绝对的相似度分数。RAG 系统设计需谨慎考虑 Chunk 长度、内容连贯性、模型选择,并可能需要更复杂的 Re-ranking 策略而非单一依赖向量相似度阈值,对于RAG中的文本块(Chunk)划分、模型选型、相似度阈值设定和查询处理具有重要的指导意义。
---
本次实验代码:https://github.com/li-xiu-qi/XiaokeAILabs/blob/main/datas/test_sentence_length/sentence_length_similarity_experiments.ipynb
飞书地址:https://jiixflj4r94.feishu.cn/wiki/SiNUwLbZaizclFkphdDcCZD8nne?from=from_copylink