他的UTD研究证明，AI算法可以给数字营销带来“巨变”……

出境入境2024-03-30 05:07小乐

“科学研究”

浙江大学医学院

如果商场持续打折，你会有立即购物的冲动吗？可能不会！不间歇的促销活动可能会降低您的消费热情。如果一个网购平台不断向你推出同类产品，你会购买吗？可能不会！过于相似的产品会让您感到厌倦，失去下单的欲望。然而，你是否相信这些问题的改善不需要商家或品牌，只需通过人工智能就可以实现！从语音识别到图像处理，从自动驾驶汽车到医疗机器人，再到现在的营销领域，人工智能的“深度强化学习”给数字领域带来了许多前所未有的机遇。

图片来源：钱库网

浙江大学管理学院营销系教授王晓义及其团队发现了“深度强化学习”给数字营销领域革命带来的巨大启发和变化。他们对其进行了一系列深入的研究，并设计了基于DRL的个性化定位策略。近日，王晓毅团队在管理科学领域国际顶级期刊《MANAGEMENT SCIENCE》上发表了数字营销方面的科研成果《Deep Reinforcement Learning for Sequential Targeting》。

序列目标的深度强化学习.pdf

结果在线发布，点击链接查看详情

到底什么是“深度强化学习”？人工智能算法如何助力数字营销发展？科研团队做了哪些尝试？

本期【“科学研究”】，让我们一起走进王小艺团队的“AI营销世界”。

学者简介

王晓义：浙江大学管理学院市场营销学教授、博士生导师。数字化转型与脑机智能营销交叉研究专家。曾获中国商会科技进步一等奖等省部级奖励多项。在《管理世界》、Management Science、Marketing Science、Journal of Marketing Research、Information Systems Research等期刊发表论文，Google Scholar H-index为20。

他们为什么关注机器学习？

研究营销定位策略？

目标营销通常是指企业识别各种购买者群体，选择其中的一个或几个作为目标市场，采用适当的营销组合，集中力量服务目标市场，满足目标市场的需求。然而，在数字时代，企业营销策略越来越依赖于与消费者的高频互动和营销策略的快速调整。此时，经典营销理论的传统思想和方法面临着越来越多的挑战。传统的定位营销策略往往只考虑与顾客一次性“买、卖”，更多地依赖前期策划和巨额广告，忽视了时间因素对消费者行为的影响和促销活动的连续性，造成成本巨大且不确定。结果。在实践中，公司需要在多个周期中决定向谁发放优惠券、选择哪种促销活动以及两次活动之间等待多长时间。与此同时，消费者的真实偏好可能会随着时间的推移而迅速变化。因此，学术界和工业界都迫切需要一种能够随着客户行为变化而调整的自适应定位营销策略。

企业常用的动态持续提升策略

作为一种新兴的人工智能算法，“深度强化学习”（DRL）算法可以在无需人类监督的情况下不断“学习”以提高性能，具有解决上述问题的巨大潜力。

“深度强化学习（DRL）”是一种基于奖励的学习方法，可以帮助定位营销策略实现个性化、适应性强，但也面临很多挑战，比如处理时间的影响；针对复杂消费者行为维度的处理；策略效果评估等

正是基于这样的背景，王晓义教授及其团队提出了这种基于DRL算法的个性化目标定位策略，并采用基于量化的不确定性学习启发式方法使DRL适应复杂的消费者行为维度。

使用双流计算的双决网络架构

科研团队做了哪些尝试？

人工智能的“自主学习”和不断升级是通过“深度学习”、“强化学习”等技术来实现的。深度学习具有较强的感知能力，但缺乏一定的决策能力；而强化学习有决策能力，但对于感知问题却无能为力。因此，将两者结合起来，优势互补，可以为复杂系统的感知和决策问题提供新的解决方案。这就是我们所说的“深度强化学习（DRL）”，也是一种更接近人类思维方式的方法。人工智能方法。

近年来，“深度强化学习（DRL）”取得了巨大突破，这是一种通过让系统以给予奖励的试错方式不断与营销环境交互来寻找答案的人工算法或惩罚反馈。完成学习过程的“最佳策略”。

王晓义教授团队基于DRL人工算法，在顺序定位营销设置的背景下，设计了这种个性化的定位营销策略。该策略首先利用持续的价格促销来吸引顾客的即时关注并锁定顾客，并在每两次价格促销之间提供一个非促销期（即冷静期），并随着时间的推移逐渐增加冷静期。长度以允许客户调整其价格参考点。

Sequential Targeting是针对消费者持续开展促销活动。

研究表明，利用深度强化学习方法可以解决目前实施持续定位营销策略面临的三大挑战：

前瞻性

平衡公司当前收入与未来收入

探索学习，同时获得市场回报

在探索和发展中不断学习，实现利润最大化

可扩展性

应对高维状态和营销政策空间

图片来源：钱库网

为了让DRL更好地适应复杂的消费者行为维度，研究团队提出了一种基于量化的不确定性学习启发式算法，以实现高效的探索和开发。通过评估，结果表明，平均而言，这种新算法代理产生的长期收益比传统方法多产生26.75%，并且学习速度也比业界其他常用算法模型更快。行业的所有基准。速度提高76.92%。为了更好地理解研究结果背后的潜在机制，研究团队对多种可解释性算法进行了研究，这些算法可以解释个体和群体层面学习最优策略的行为模式。

此外，王晓义教授和团队合作者提出的“模拟”在线测试环境构建了一个用于DRL训练和测试的用户行为模拟器，为平台提供了一种经济高效的方式来学习DRL代理，而无需在现实世界中运行它们。大量测试。

图片来源：钱库网

但也不得不承认，人工智能算法在营销领域的应用仍然面临着一些挑战。由于算法依赖训练数据和计算资源，需要大量的实验和优化来提高算法的效率和准确性；由于消费者行为的复杂性和不确定性，需要更多的数据和模型来解释和预测消费者的行为；由于DRL算法需要在短时间内做出实时决策和调整，因此需要建立实时决策系统来支持DRL算法的应用。为了解决这些挑战，王晓义教授团队正在进一步努力开展研发工作，预计今年将提供更加通用和通用的DRL框架。该框架还可以轻松扩展到其他目标营销场景，例如基于位置的服务、流媒体或在线教育的在线顺序推荐，平台和营销人员可以在日常实践中轻松使用。该框架将基于量化不确定性学习启发式，结合实时决策系统和用户行为模拟器，提高DRL算法的效率和准确性，帮助企业更好地理解和预测消费者行为，制定更智能、更有效的营销策略。

总体而言，王晓义教授团队的研究成果展示了“深度强化学习”方法在优化定位营销策略以实现企业长期收益最大化方面的巨大潜力，证明该方法可以在数字营销领域产生颠覆性影响。

图片来源：钱库网

他们的研究是

品牌价值和数字营销意味着什么？

基于“深度强化学习”的营销策略对于提升数字营销效率有何作用？帮助企业制定数字营销策略意味着什么？事实上，这种听起来“神秘”的算法驱动营销研究成果与品牌和企业息息相关，对企业数字化转型具有重要的价值和战略意义。具体来说，可以帮助企业更准确地进行市场定位和目标营销，提高数字营销的效率和准确性，实现业务增长和品牌价值提升。

更好地了解消费者的需求和偏好

“深度强化学习”可以帮助企业更好地了解消费者的需求和偏好，从而准确地进行市场定位和目标营销。通过对消费者数据的深入分析，企业可以了解消费者的行为模式和心理特征，从而制定更精准的营销策略。例如，企业可以根据强化学习算法的分析结果及时调整产品定价、产品推荐、广告等策略，以提高消费者忠诚度和购买转化率。

优化营销渠道，提高效率

“深度强化学习”可以帮助企业优化营销渠道，提高数字营销的效率和准确性。通过分析比较不同营销渠道的数据，企业可以了解各个渠道的贡献和效果，从而制定更科学的渠道策略。例如，基于强化学习算法的分析结果，企业可以及时调整各渠道的投放比例和投放策略，提高数字营销的效率和准确性。

实现数字营销的精细化、智能化

深度强化学习算法可以帮助企业实现数字营销的精细化、智能化。通过对消费者数据的深度学习和分析，企业可以了解消费者的行为和偏好，从而实现个性化的营销和服务。例如，企业可以根据强化学习算法的分析结果，针对不同的消费群体提供不同的营销方案和服务，以提高消费者的满意度和忠诚度。

图片来源：钱库网

基于这一研究成果，王小艺团队与阿里巴巴合作完善数字营销管理方法论、与浙江中烟合作设计智慧营销大脑、为传统零售业务制定自有品牌战略等，为企业提供了一条新路径。数字化创新和解决方法。近日，王晓义教授与阿里妈妈发布了DEEPLINK模型，详细分析了消费者从种植、首次购买、再到重复购买的消费路径。如果我们用“个性化定位营销策略”来分析解读模型中看似复杂无序的消费路径，可以将其分解为：发现——参与——热情——执行——初次购买——多次复购——敏锐忠诚。该模型是在过去围绕销售漏斗的AIPL模型（认知-兴趣-购买-忠诚度）的基础上的进一步升级。这样的路径分析可以帮助企业更好地理解和预测消费者行为，制定更智能、更有效的营销策略。

附：论文摘要

深度强化学习（DRL）为数字营销领域的革命带来了许多前所未有的机遇。在本研究中，我们在顺序设置中设计了基于DRL 的个性化定位策略。我们表明，该战略能够解决顺序目标的三个重要挑战：（1）前瞻性（公司当前收入和未来收入之间的平衡），（2）边学习边赚钱（通过探索-利用不断学习，实现利润最大化）， (3)可扩展性（应对高维状态和策略空间）。我们通过基于DRL 的人工智能(AI) 代理的新颖设计来说明这一点。为了更好地使DRL 适应复杂的消费者行为维度，我们提出了一种基于量化的不确定性学习启发式，以实现高效的探索-利用。我们通过模拟得出的政策评估结果表明，所提出的DRL 代理的长期收入平均比非DRL 方法多26.75%，并且比所有基准中第二快的模型学习速度快76.92%。此外，为了更好地理解潜在的潜在机制，我们进行了多种可解释性分析，以解释个人和群体层面上学习到的最优政策的模式。我们的研究结果提供了重要的与管理相关且理论一致的见解。例如，开始时连续的价格促销可以立即吸引对价格敏感的消费者的注意力，而在价格促销之间精心间隔的非促销“冷却”期可以让消费者调整他们的参考点。此外，从长远角度考虑未来收入是必要的，但过多权衡未来也会抑制收入。此外，对异质治疗效果的分析表明，最佳促销序列模式在消费者参与阶段存在很大差异。总体而言，我们的研究结果表明，DRL 有潜力优化这些策略的组合，以实现长期收入最大化。

编辑：王景春

审稿人：佟庆

他的UTD研究证明，AI算法可以给数字营销带来“巨变”……

猜你喜欢