机器人解读人类情绪 为人类的身心健康谏言献策

Frieza77

   麻省理工学院媒体实验室的研究人员已经开发出一种机器学习模型,它让计算机离像人类一样自然地解释我们的情绪更近了一步。

前瞻经济学人

在越来越多的“情感计算”领域,人们正在开发机器人和计算机来分析面部表情,解读我们的情绪,并做出相应的反应。应用程序包括,例如,监控个人的健康,测量教室中学生的兴趣,帮助诊断某些疾病的迹象,以及开发有用的机器人助手。

然而,这存在一个挑战就是人们表达情感的方式完全不同,这取决于许多因素,在不同的文化背景、性别和年龄差别中都可以看到普遍的差异,但其他的差异则更为细微:一天中的某个时间段、你睡了多少觉,甚至你对交谈对象的熟悉程度,都会导致你在特定时刻内表达情感的方式发生微妙的变化,例如如何表达快乐或悲伤。

人类的大脑能本能地捕捉到这些偏差,但机器却在这方面挣扎着。深度学习技术是近年来发展起来的,目的是帮助机器抓住情感表达中的微妙之处,但它们在不同的人群中仍然不够精确,也不能适应不同的人群。

媒体实验室的研究人员已经开发出一种机器学习模式,这种模式在捕捉这些微小的面部表情变化方面要优于传统系统,在训练解读数千张人脸图像的同时,能更好地评估情绪。此外,通过使用一些额外的训练数据,这个模型可以适应一个全新的人群,并且同样有效。这个模式的目的是改进现有的情感计算技术。

媒体实验室研究员奥吉·鲁多维克(Oggi Rudovic)与其他作者于上星期的机器学习和数据挖掘会议中发表了一篇论文,在论文中,Oggi说:“对于监控我们的情绪来说,这是一种不引人注目的方式,如果你想让机器人具有社会智能,你就必须让它们智能且自然地对我们的情绪和感情做出反应,就像人类一样。”

论文的共同作者是:第一作者Michael Feffer,一个电气工程和计算机科学的本科生;Rosalind Picard,媒体艺术与科学教授,情感计算研究小组的创始主任。

个性化的“专家”

传统的情感计算模型采用“一刀切”的概念。他们只训练机器观察一组面部表情的图像,让机器描述各种面部表情优化特征,比如微笑时嘴唇如何弯曲,并让机器在一组全新的图像中映射这些一般的特征优化。

相反,研究人员将一种名为“专家的混合”(MoE)的技术与模型个性化技术结合在一起,这种技术有助于从个体中挖掘出更细致的面部表情数据。Rudovic说,这是这两种技术第一次结合在一起进行情感计算。

在MoEs中,许多神经网络模型被称为“专家”,它们被训练成专门处理一个单独的任务并产生一个输出。研究人员还加入了一个“门控网络”,计算出哪位“专家”能最好地检测到受试者的潜在情绪。Feffer说:“基本上,这个门控网络可以区分个体,并说‘这是能对给定图像进行解读的正确专家’。”

在他们的模型中,研究人员将每个“专家”与RECOLA数据库中的18段视频中的一段进行匹配,从而对MoEs进行了个性化处理, RECOLA数据库是专门为情感计算应用程序设计的视频聊天平台,他们用9个实验对象对模型进行训练,并在另外9个实验对象解读中对机器进行评估,所有的视频都被分解成单独的帧。

每一个“专家”和门控网络都在一个ResNet,一个用于对象分类的神经网络的帮助下跟踪每个人的面部表情。在这个过程中,模型根据效价(愉快或不愉快)和觉醒(兴奋)的水平对每一帧进行评分,这两个是通常用来编码不同情绪状态的指标。另外,六名人类专家同样使用一样的标准,从-1(低分)到1(高分)的范围之间对每一帧的效价和觉醒进行评分。

然后,研究人员进行了进一步的模型个性化实验,在实验中,他们将实验对象的剩余视频帧输入经过训练的模型数据,然后在从未见过的视频帧上测试模型。结果显示,新群体的数据只有5%到10%,这个模型在很大程度上优于传统模型——这意味着它在未被发现的图像上获得了更接近人类专家解读的效价和唤醒。

Rudovic说,这显示了模型在数据很少的情况下,从一个人群到另一个人群,或者从个人到另一个个人的适应能力。“这是关键,”他说。“当你有了新的人群,你就必须要有一种方法来解释数据分布的变化(细微的面部变化)。”想象有一个模型集来分析一个文化人群中的面部表情,这个模型集需要适应不同的文化。如果不解释这种数据转移,这些模型将表现得没那么好,但是,如果从一种新的文化人群中抽取一点样本来适应我们的模型,这些模型可以做得更好,特别是在个人层面上。这就是模型个性化最重要的地方。

目前,用于这种情感计算研究的数据在肤色上并不是很多样化,所以研究人员的训练数据是有限的。但是,当得到这些数据时,该模型就可以用于更多样化的人群。Feffer说,下一步是在“一个更大、文化更多样化的数据集”上对模型进行培训。

更好的人机交互

研究人员说,另一个目标是训练这个模型,帮助计算机和机器人自动从少量变化的数据中学习,从而更自然地检测我们的感觉,更好地满足人类的需求。

例如,它可以在电脑或移动设备的背景下运行,跟踪用户基于视频的对话,并在不同的环境下学习微妙的面部表情变化。“你可以让智能手机应用程序或网站来学会解读人们的感受,并为他们提供方法去应对压力或痛苦,以及其他对他们的生活产生负面影响的东西,”Feffer说。

这也可能有助于监测,比如说,抑郁或痴呆,人们的面部表情会因为这些条件而发生微妙的变化。Rudovic说:“我们的面部表情能够被被动地监控,我们就可以随着时间的推移,使这些模型根据用户进行个性化,和监控他们的表情每天有多少偏离面部表达平均水平的偏差,并把这个作为身心健康的晴雨表。”

Rudovic说,人机交互是一个很有前途的应用,比如用于个的人机器人或用于教育目的的机器人,机器人需要适应评估不同人的情绪状态。例如,有一个版本就被用于帮助机器人更好地解读自闭症儿童的情绪。

英国贝尔法斯特女王大学(Queen 's University Belfast)心理学名誉教授、情感计算学者罗迪•考伊(Roddy Cowie)表示,麻省理工学院的研究“说明了我们在这一领域的真正位置”。他说:“我们正逐渐向这样的系统靠拢,它可以粗略地识别人们的面部表情,从非常正面到非常负面,非常主动到非常被动。从直觉上看,一个人发出的情绪信号与另一个人发出的信号并不相同,因此,从很大程度上讲,当情感识别被个性化时,它会表现得更好。”个性化的方法反映了另一个有趣的观点,即培训多个“专家”并汇总他们的判断,比培训一个超级“专家”更有效。两个模式一起组成了一个令人满意的套装软件。

可行性研究报告

广告、内容合作请点这里:寻求合作

咨询·服务

相关阅读

精彩推荐