基本信息
文件名称:搜索时间数据污染.pdf
文件大小:13.12 MB
总页数:11 页
更新时间:2025-11-05
总字数:约1.97万字
文档摘要
搜索时间数据污染
ZiwenHan,MeherMankikar,JulianMichael,andZifanWang
ScaleAI
Envelopeseal-team@Databasehuggingface.co/ScaleAI/stcGLOBE/research/stc
摘要
数据污染传统上指的是评估数据泄露到模型训练数据中,导致对本应保留的测试集过度拟合,并损害了测试的有效
性。我们发现了一个类似的问题——检索时间污染(STC),在评估基于搜索的LLM代理时出现。这些代理使用工