Woodpecker: Hallucination Correction for Multimodal Large Language Models
在多模态大型语言模型(Multimodal Large Language Models, mllm)中,生成的文本与图像内容不一致的问题是一个重大的挑战。现有的方法通常需要用特定的数据重新训练模型来减少幻觉。这篇论文引入了一种新的不需要训练的框架——Woodpecker 来解决这个问题。值得注意的是,它是第一个提出使用这种方法下对视幻觉采用矫正的论文。这个框架每个步骤的都清晰和透明,增强了可解释性。综合评价表明,该方法非常有效,在纠正mllm幻觉方面具有很大的潜力。在POPE基准测试中,该方法的精度比基线MiniGPT-4/mPLUG-Owl提高了30.66%/24.33%。”