问答系统评估标准
目录
问答系统评估标准
忠实度
答案相关性:计算生成问题和原始问题之间的余弦相似度
上下文召回率
答案准确性
问答系统评估标准
-
忠实度
- 定义:衡量问答系统生成的答案是否忠实于给定的输入(如问题本身、相关的文档或知识源)。它关注的是答案是否基于正确的信息源,没有引入无关或错误的内容。
- 评估方法:人工检查答案中的信息是否都能在输入的知识源中找到依据。例如,如果问题是 “《红楼梦》中贾宝玉的性格特点是什么”,答案中提到的 “叛逆、多情” 等特点应该是在《红楼梦》文本中有体现的,而不是凭空捏造的。可以通过计算忠实信息占整个答案信息的比例来量化,比如答案中有 80% 的内容能在知识源中找到依据,忠实度可以记为 0.8。