AI不再只“看得见”,它开始“看得懂”——不仅懂你在视频中注视的具体位置,更懂你是谁,并据此做出精准预测。这正是明略科技的研究成果《PRE-MAP: Personalized Reinforced Eye-tracking Multimodal LLM for High-Resolution Multi-Attribute Point Prediction》的核心突破,该论文近日已被全球多媒体技术领域的旗舰会议ACM MM 2025正式接收,得到了广泛关注。
这项创新成果的目标看似单一:预测用户在广告视频中的注视点。但其背后的技术矩阵堪称“多模态AI的顶配组合”:大语言模型(LLM)、多模态学习、个体属性建模、眼动数据采集、高分辨率图像处理与强化学习。
图片来源:明略科技
当它被置于“注意力即价值”的广告营销场景中时,一场真正的变革已悄然开启。
个性化注意力预测:广告测量的下一张王牌
广告最看重的,是“受众是否看到了重要信息”,而不是广告主“在广告里放置了什么信息”。但这个“看”,却没有被真正精确地量化过。
过去,无论是焦点小组、A/B Test,还是后期行为追踪,都属于事后统计,是对有限样本的效果复盘。而明略科技的最新研究则带来了新的解题方法:用AI模拟用户的真实注视行为,提前预判人对广告内容的注意力分布,并实现个性化差异呈现。
它是如何做到的?明略科技以两项基础创新为支点:一个是超大规模的真实眼动数据集SPA-ADV;另一个是创新的注视点预测模型明敬PRE-MAP。
SPA-ADV数据集涵盖了4500多名不同年龄段、性别的真实用户对486个精选广告视频的细致注视记录,包括眼球运动轨迹以及精确的注视点坐标等真实视觉行为,为个性化显著性建模提供了高质量的基准数据支持。
图片来源:明略科技
这也为明敬PRE-MAP的“个性化预测”能力提供了丰富的“数据燃油”,使它不仅能够预测“人会看哪里”,更能进一步预判“一个30岁女性可能会在视频第3秒看向画面的哪个区域”。
这标志着广告评估领域,正迎来从“群体平均”到“个体洞察”的结构性跃迁。
大模型的新任务:从生成到认知推理
与当前大热的文生图、视频生成不同,明敬PRE-MAP大模型的应用不是为了生成内容,而是为了“感知内容,并推理人类视觉行为”。这正是多模态大模型迈向下一阶段的关键能力:理解人类是如何感知世界的,从而更好地发挥人机协同的价值。
明敬PRE-MAP背后的建模逻辑很清晰:将用户属性(如年龄、性别)通过Prompt嵌入模型,配合高分辨率广告视频段,输出用户在该场景中可能产生的注视点坐标,并生成可视化热图。
从技术实现来看,明敬PRE-MAP抛弃了传统的低分辨率特征图上采样重建方法,采用了“点式预测”机制,即直接输出一帧图像中用户可能注视的若干个点。比起“模糊的热区”,这种机制可以更真实、更精准地还原人眼的真实运动轨迹。
图片来源:明略科技
论文的实验结果充分验证了这一点。与SUM、Transalnet等多个主流模型相比,明敬PRE-MAP在各项评估指标上均表现出显著优势,其预测的注视点分布精准,边缘与人眼的真实注视位置高度吻合。
随着模型持续演进,未来的明敬PRE-MAP甚至可能明确指出:“该用户的第一注视点是左上角人物的眼睛,第二注视点是右下角的品牌Logo,第三是中央字幕。”
这种高精度点式输出,对广告主而言价值巨大:它不只是“知道你是否在看”,而是“知道你先看哪、后看哪、忽略了什么”,并据此优化广告内容,抓住更多注意力。
技术解构:精准和个性化的双重突破
明敬PRE-MAP模型的技术核心包括两部分,分别解决了“个性化预测”“精准定位”的技术难题。
一方面,模型通过多属性点式注意力建模进一步增强预测位置的精度,让大模型更容易精确定位不同属性人们的注意力焦点;另一方面,模型通过C-GRPO机制让预测结果更容易被清晰呈现:
● 多属性点式注意力建模(Multi-Attribute Point-Based Attention):基于多模态大模型(MLLMs),融合用户属性(如性别、年龄)与视频语义内容,引导模型在高分辨率视频帧上直接预测个性化注视点,提升预测的针对性与分辨率保真度。
● Consistency Group Relative Policy Optimization(C-GRPO):一种基于强化学习的优化机制,通过对预测点的空间一致性与格式规范进行策略约束,进一步增强个性化注视点预测的可控性与精度。
图片来源:明略科技
广告之外的更大图景:把“人”的认知反馈嵌入AI系统
明敬PRE-MAP的研究无疑是广告测量领域的一剂强心针,但它背后的技术逻辑价值远不止于此。它提供了一套新的思路——AI系统应当学会感知、理解并模拟人类的主观认知反馈,并将其融入生成与推理中。
这对于AI Agent、推荐系统、游戏设计、教育内容编排等不同场景同样具有启发意义。例如:
教育视频如何根据不同年龄段学生的注意力模式优化镜头?
游戏中的视觉引导如何为不同玩家群体进行个性化设计?
短视频封面生成系统能否优先考虑不同用户的视觉兴趣点?
明敬PRE-MAP所构建的高分辨率注视预测 + 多模态大模型建模 + 可控输出机制,为这些问题提供了新的启示。
长远来看,对包括广告在内的广泛行业而言,它将使“创意”成为一个更可量化、可测试、可优化的技术问题。对AI大模型的发展而言,它是将“人类感知”嵌入大模型的前瞻性尝试。理想的未来图景中,AI能够理解人类的需求、意图和情感,并提供相应的支持与解决方案,人类也能更好地理解AI的内容生成与决策过程,从而建立更加和谐有效的人机关系。
以上内容与数据,与有连云立场无关,不构成投资建议。据此操作,风险自担。