潜在扩散模型(LDM)与大型视觉语言模型(LVLM)已被广泛用于图像编辑与跨模态感知,也带来了内容篡改与模型安全方面的新问题。本报告介绍报告人近期的两项工作。第一项针对LDM驱动的图像编辑,提出基于潜变量后验坍塌的灰盒对抗防护方法:对图像施加微小扰动,使其经VAE编码后语义结构坍塌,从而无法被正常编辑。该方法只需访问占全模型参数不足4%的VAE编码器,跨多种LDM变体通用,且不依赖任何提示词;相比现有基线运行时间最多降低约74%、显存最多降低约69%。第二项针对真实安全场景中仅返回文本的LVLM,提出硬标签黑盒对抗补丁方法:在无法获取梯度与置信度的条件下,通过比较各区域被遮挡前后输出语义的变化来定位敏感区域,再以无梯度探针估计优化补丁,以更小的扰动面积取得更高攻击成功率。
报告人郭重良,现任英国阿伯丁大学长聘助理教授,研究方向为可信人工智能。他于英国圣安德鲁斯大学获得计算机博士学位,师从Ognjen Arandjelović教授(Fellow of Trinity College、Fellow of the Cambridge Overseas Trust),代表性工作被评为CVPR 2025 Highlight Paper。他曾获英国皇家学会(Royal Society)"全球人才"杰出潜力(Exceptional Promise)背书及英国研究与创新署(UKRI)"全球人才"背书。他目前担任Pattern Recognition副编辑(Associate Editor)兼可信人工智能专刊首席客座编委,以及《中国信息融合学报》副编辑。