详情

Believe—基于VR虚拟现实技术的演讲练习系统

申报人:冯鹏昊 申报日期:2022-04-03

基本情况

2022
Believe—基于VR虚拟现实技术的演讲练习系统 学生申报
创新训练项目
工学
计算机类
学生自主选题
一年期
通过VR游戏将演讲练习者带入虚拟场景,内部有虚拟观众。练习者可在较为真实的场景中进行演讲练习,克服心里紧张,同时通过获取语言信息的方式,统计出演讲者紧张的程度,待结束后将数据返回给练习者。

参加过实验室组织的科技创新实践培训。

参加过实验室组织的STC51STM32学习活动并进行了详细的学习。

参加过实验室组织的Altium Design 17电路图设计工具学习活动,以及Keil4等式嵌入式程序设计软件的学习。

参加过UE4U3D的学习。

参加过全国大学生电子设计竞赛并取得省级二等奖

参加过ICAN国际创新创业大赛并取得省级三等奖

一、课题

1.无源辅助802.1x的井下定位与通信系统的研究和开发(2015ZH062),烟台市科技发展计划项目,2015.06-2017.06, 1/5

2.创新创业实践,校级混合式教学改革立项课程,2017.12-2019.12, 1/9

3.校企联合创新孵化基地,(201602011036),教育部产学合作协同育人项目,2016.12-2018.01,教研,1/4

4.基于混合式课程的高校创新型人才培养体系研究与实践,(201801065007,教育部产学合作协同育人项目 ,2018.08-2019.12,教研,1/5

5.新工科校园众创空间创新人才培养基地,(201801284008,教育部产学合作协同育人项目, 2018.08 -2019.12,教研,1/5

6.以建设国家级一流本科专业为契机,打造地方院校计算机类人才培养实践基地研究与实践”,教育部产学合作协同育人项目,2020.12-2022.061/4

7.基于IPv6WSN的实验室安全主动预警平台研究与开发,赛尔网络下一代互联网技术创新项目,2017.12-2019.12

8.基于DNNrVSM的软件缺陷静态定位模型研究,2018年山东省高等学校科技计划,2018.06-2020.06

9.基于6LoWPAN的渔业水环境检测信息监控平台研究与开发,赛尔网络下一代互联网技术创新项目,2018.12-2020.12

10.简易电子秤,全国大学生电子设计大赛,省级,一等奖,2016

11.自适应滤波器,全国大学生电子设计大赛,省赛,一等奖,2017

12.可见光室内定位装置,全国大学生电子设计大赛省赛,一等奖,2017

13.基于IPv6的家庭安防系统,2018C4网络技术挑战赛,三等奖2018

14.基于Type-C的便携仪甲醛测试仪,2018iCAN省赛,二等奖,2018

15.第七届山东省大学生科技创新大赛,二等奖1项,三等奖1项,银牌指导教师


二、专利

ZL 2017 2 0905877.4

ZL 2016 2 0321269.4

ZL 2016 2 0320581.1

指导老师对项目给予肯定,该项目将VR虚拟现实技术与语言解析技术结合,具有很强的创新性,同时对于项目的应用也较为新颖,解决人们自身的紧张问题。除此之外该项目团队同学具有了该方面的知识,并且合作能力较强。
省级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
冯鹏昊 计算机科学与技术学院(人工智能学院) 软件工程 2020 虚拟场景开发与程序设计
徐梁凯 计算机科学与技术学院(人工智能学院) 软件工程 2020 场景渲染
杨婧琦 计算机科学与技术学院(人工智能学院) 软件工程 2020 虚拟场景设计
薛锐 计算机科学与技术学院(人工智能学院) 软件工程 2020 VR设备开发

指导教师

序号 教师姓名 所属学院 是否企业导师 教师类型
杨洪玲 计算机科学与技术学院(人工智能学院)
葛玥 金融学院(财富管理学院)

立项依据

大学生正处于身心迅速发展的时期,他们面临的内外压力也普遍增多,其中不少压力已超出了他们所能负荷的程度,常常引起纷扰的、不利的、危机重重的后果。除此之外压力产生的紧张、焦虑、烦躁等心理也影响了大学生的正常心理活动并滋生了许多外部表现。我们发现如今许多同学由于缺乏压力应对能力,特别是在特定情境下的压力和紧张情绪状态的调节和控制能力,需要对其进行针对性的焦虑情绪矫治训练。为了解决此类问题我们设计了一项沉浸式演讲练习系统以此来缓解学生以及上班族人群的压力,达到消除焦虑等不良心理的目的。

我们想要设计一款用户体验感极佳的虚拟演讲练习系统,这关系到了VR虚拟现实技术的开发应用,语音识别技术的改进,语言分析技术的研究以及用户体验感研究。

1.  VR场景的设计以及给予演讲者的视觉反馈真实感的研究。

2.  数据处理方面的研究,虚拟评委的打分算法的研究。

3.  语言文字的解析,语言分析技术解析语言错误。

4.  语音识别技术的改进。

5.  系统硬件设计,VR设备的选取以及各功能模块的研究。

       6.人机交互界面的设计,为用户制定人性化的简洁操作页面。

在国外,Felnhofer等人将虚拟环境作为情绪诱导程序来测试五种不同的虚拟公园场景是否会触发特定的情绪状态即快乐、悲伤、无聊、愤怒和焦虑,在测试中,Felnhofer等人共设计了五个虚拟环境,将120名学生随机分配到其中一个场景,结果表示,几乎五种虚拟公园场景都能触发预期情绪;Wallach等人在实验中,通过随机分组的实验方法来观察VR模拟训练对于被试者公共演讲焦虑情绪的干预效果,研究结果证明使用该方法来降低公共演讲焦虑情绪是可行的;为了研究VR辅助治疗方案对公众焦虑的有效性,Philip等人设计实验,让心理学家对23名参与者进行VR辅助治疗,采用但对象设计和双斜率模型的方法调整治疗效果,通过参与者对于自身焦虑情况的自我评定来看,参与者对于公众演讲的焦虑明显降低,此结果表明,虚拟现实可以通过呈现虚拟等特效应的恐惧刺激而用作进行有效暴露治疗工具;国外目前的较好的演讲练习系统《Virtual Orator》、《Speech Center VR》、《BeFearless》、《Public Speaking VR》、《Public Speaking Simulator VR》在观众反馈方面存在诸多问题且仅支持英语。

在国内,耿文秀等人开发了虚拟现实面试训练系统,通过虚拟情景模拟,提供一种基于代理的虚拟现实训练范式,帮助羞怯的中国大学生自主提高焦虑应对技能和面试表现。在虚拟演讲训练系统方面,山东大学开发了面向服刑人员的虚拟演讲训练系统,其目的在于减缓服刑人员的紧张焦虑情绪。该系统使用Unity3D引擎开发,基于HTC VIVE Eye设备和云管理平台,实现用户在系统中的精准实时定位。高清流畅画面播放以及手柄交互等功能。并且采用阿里云与MySQL数据库结合以及Unity3D搭建可视化的云管理平台。在系统中提供了导调控制和自主控制两种模式。在导调控制模式中,导调控制端和演讲训练端基于两个主机在同一局域网下即可独立运行,导调人员可以对训练过程进行无延迟的实时监控导调控制,实现狱警与服刑人员在空间上的分隔,从而可以有效避免狱警与服刑人员的直接接触;在自主控制模式中,服刑人员可以根据个人情况进行自主训练。同时,该系统为训练人员提供多种演讲主题以及大,中,小三种演讲场景,丰富的训练内容在一定程度上有效提高了训练人员的兴趣并且可以使其注意力更加集中。

国内的虚拟演讲训练系统虽然功能丰富,但是应用领域较为单一,且仅针对某一类特定人群,如面向服刑人员。同时缺少了对演讲者演讲水平的分析,其目的仅在于缓解某一特定人群的焦虑心理在提高演讲能力方面并不显著。在面向服刑人员的虚拟演讲训练系统中,导调模式虽然可以有效减少狱警对服刑人员的干扰,在一定程度上缓解了服刑人员的心理压力但是程序较为复杂,且在其他应用场景如普通大众,高校学生等并不适用,因此导调模式也仅适用于需要看守的人群如服刑人员等。

 1.语言适配性

  本项目拟支持汉语且以语言解析技术作为技术核心,不同于市面上的虚拟演讲练习系统,该项目在具备演讲练习功能的基础上解决了市面上已存在的演讲练习系统的“语言支持”问题,且该项目设计了可以识别演讲者演讲话语的数据解析模式,对了诸如咬字不清、吞吞吐吐、紧张结巴等情况会对其进行记录,以便于在演讲结束时反馈给演讲者。

2.虚拟现实技术创新

该项目应用虚拟现实技术,与传统的演讲训练模式相比,可以为训练人员提供更加具有沉浸感的演讲体验,该项目在虚拟场景中加入的虚拟观众和虚拟评委具有不同于传统虚拟练习系统的神态,动作,以及表情,解决了观众死板,观众反馈较差,演讲体验感差的诸多问题,给予演讲者真实的演讲体验。且该项目是基于HTC VIVE设备开发的可以有效减少外部环境对于训练人员注意力的分散,并且可以保证不因为空间限制而导致训练内容单一,此外还可以根据演讲者需求切换适合的练习场景。

3.语言解析技术应用改进

  该项目拟更新语言解析技术,对于语言信息文本设计新的解析模式,适配于汉语,且按照汉语对于的词,句,语境,语义进行自然语言文本生成,按照汉语式演讲乒乓规则进行算法设计。

该项目可分为3个模块VR设备模块,虚拟场景模块,语音识别模块。

6.1 VR设备模块


                                                                                                                

                                                                                                                                                6-1 VR设备

设备选用VIVE Flow 是一款改善身心健康和提高效率的沉浸式VR眼镜,性价比较高。

该设备可兼容安环P(9.0)及以上,产品质地轻,可折叠。具有4GB RAM内存以64GB ROM内存空间,可满足广大用户的要求。视场角至高可达100度并且具有75HZ刷新率画面清晰且减少卡顿情况。设备面部和太阳穴部位具有清洁衬垫,具有极高的舒适感,搭配散热器具有主动冷却功能,性能稳定,提高用户佩戴舒适度。音频方面,支持空间音频的立体声扬声器,具有消除回声和降噪功能的双收音麦克风并且支持蓝牙耳机。电源方面,使用时需连接外部电源并兼容移动电源且支持热插拔电源。视野调整方面,可调节屈光度,每个透镜的焦距。操作手柄方面,可连接手机作为操作手柄使用。该设备还支持视频透视模式,具有定位追踪功能内置两个摄像头,支持头戴式设备inside-out6DoF追踪功能。连接口为USB-CWi-Fi、蓝牙5.0

6.2 虚拟场景模块

该项目的虚拟场景采用UE4进行开发。项目需求部分采用HTC VIVE进行输入。

                                                                                                                

                                                                                                6-2 设备输入设置

为了给予观众演讲反馈,我们给虚拟观众设置了一系列动作来给演讲者强烈的视觉反馈。


                                                                                                                

                                                                                           6-3 虚拟观众模型图


动作采用UE蓝图进行程序编写,编程语言为C++,并通过动作行为树管理观众的动作。

                                                                                                                

                                                                              6-4 观众动作行为树

6.3 语音识别模块

语言作为人类的一种基本交流方式,在数千年历史中得到持续传承。近年来,语音识别技术的不断成熟,已广泛应用于我们的生活当中,成为人与机器通过自然语言交互重要方式之一。

语音识别的本质就是将语音序列转换为文本序列,其系统框架如下:

                                                                            

                                                                                                                                          6-5 语音识别系统框架

6.3.1 前端信号处理

前端的信号处理是对原始语音信号进行的相关处理,使得处理后的信号更能代表语音的本质特征,相关技术点如下表所述:

6.3.1.1 语音活动检测

语音活动检测(Voice Activity DetectionVAD)用于检测出语音信号的起始位置,分离出语音段和非语音(静音或噪声)段。VAD算法大致分为三类:基于阈值的VAD、基于分类器的VAD和基于模型的VAD

基于阈值的VAD是通过提取时域(短时能量、短时过零率等)或频域(MFCC、谱熵等)特征,通过合理的设置门限,达到区分语音和非语音的目的;基于分类的VAD是将语音活动检测作为(语音和非语音)二分类,可以通过机器学习的方法训练分类器,达到语音活动检测的目的;

基于模型的VAD是构建一套完整的语音识别模型用于区分语音段和非语音段,考虑到实时性的要求,并未得到实际的应用。

6.3.1.2 降噪

在生活环境中通常会存在例如空调、风扇等各种噪声,降噪算法目的在于降低环境中存在的噪声,提高信噪比,进一步提升识别效果。常用降噪算法包括自适应LMS和维纳滤波等。

6.3.1.3 回声消除

回声存在于双工模式时,麦克风收集到扬声器的信号,比如在设备播放音乐时,需要用语音控制该设备的场景。

回声消除通常使用自适应滤波器实现的,即设计一个参数可调的滤波器,通过自适应算法(LMSNLMS等)调整滤波器参数,模拟回声产生的信道环境,进而估计回声信号进行消除。

6.3.1.4 混响消除

语音信号在室内经过多次反射之后,被麦克风采集,得到的混响信号容易产生掩蔽效应,会导致识别率急剧恶化,需要在前端处理。

混响消除方法主要包括:基于逆滤波方法、基于波束形成方法和基于深度学习方法等。

6.3.1.5 声源定位

麦克风阵列已经广泛应用于语音识别领域,声源定位是阵列信号处理的主要任务之一,使用麦克风阵列确定说话人位置,为识别阶段的波束形成处理做准备。

声源定位常用算法包括:基于高分辨率谱估计算法(如MUSIC算法),基于声达时间差(TDOA)算法,基于波束形成的最小方差无失真响应(MVDR)算法等。

6.3.1.6 波束形成

波束形成是指将一定几何结构排列的麦克风阵列的各个麦克风输出信号,经过处理(如加权、时延、求和等)形成空间指向性的方法,可用于声源定位和混响消除等。

波束形成主要分为:固定波束形成、自适应波束形成和后置滤波波束形成等。

6.3.2 语音识别基本原理

已知一段语音信号,处理成声学特征向量之后表示为,其中表示一帧数据的特征向量,将可能的文本序列表示为,其中表示一个词。语音识别的基本出发点就是求,即求出使最大化的文本序列。将通过贝叶斯公式表示为:

                                                                                                                            

                                                                                                    6-6 贝叶斯公式


其中,称之为声学模型,称之为语言模型。大多数的研究将声学模型和语言模型分开处理,并且,不同厂家的语音识别系统主要体现在声学模型的差异性上面。此外,基于大数据和深度学习的端到端(EndtoEnd)方法也在不断发展,它直接计算 ,即将声学模型和语言模型作为整体处理。

6.3.3 声学模型

声学模型是将语音信号的观测特征与句子的语音建模单元联系起来,即计算。我们通常使用隐马尔科夫模型(Hidden Markov ModelHMM)解决语音与文本的不定长关系,比如下图的隐马尔科夫模型中。


                                                                                                        

                                                                                                                                            6-7隐马尔科夫模型

            将声学模型表示为:

                                                                                                        

                                                                                                                                                               6-8 声学模型公式

其中,初始状态概率和状态转移概率可用通过常规统计的方法计算得出,发射概率可以通过混合高斯模型GMM或深度神经网络DNN求解。

传统的语音识别系统普遍采用基于GMMHMM的声学模型,示意图如下

                                                        `                                                            


                                                                                                                                               6-9  基于GMMHMM的声学模型示意图

其中,表示状态转移概率,语音特征表示,通过混合高斯模型GMM建立特征与状态之间的联系,从而得到发射概率,并且,不同的状态对应的混合高斯模型参数不同。

基于GMMHMM的语音识别只能学习到语音的浅层特征,不能获取到数据特征间的高阶相关性,DNNHMM利用DNN较强的学习能力,能够提升识别性能,其声学模型示意图如下:

                                                                                                                                    

                                                                                                            6-10 基于DNNHMM的声学模型示意图

GMMHMMDNNHMM的区别在于用DNN替换GMM来求解发射概率,GMMHMM模型优势在于计算量较小且效果不俗。DNNHMM模型提升了识别率,但对于硬件的计算能力要求较高。因此,模型的选择上我们采用DNNHMM模型,以便于演讲者语言解析的研究。

6.3.3 语言模型

语言模型与文本处理相关,比如我们使用的智能输入法,当我们输入“nihao”,输入法候选词会出现你好而不是尼毫,候选词的排列参照语言模型得分的高低顺序。

语音识别中的语言模型也用于处理文字序列,它是结合声学模型的输出,给出概率最大的文字序列作为语音识别结果。由于语言模型是表示某一文字序列发生的概率,一般采用链式法则表示,如是由组成,则可由条件概率相关公式表示为:


                                                                                                            

                                                                                                                6-11  条件概率公式


    由于条件太长,使得概率的估计变得困难,常见的做法是认为每个词的概率分布只依赖于前几个出现的词语,这样的语言模型成为ngram模型。在ngram模型中,每个词的概率分布只依赖于前面n1个词。例如在trigramn取值为3)模型,可将上式化简:

                                

                                                                                                                    6.12 模型简化后的公式

         以此降低概率估计的难度。



项目总时间约为12个月。

20225月:方案设计,任务布置,资料收集,设备选取购买阶段。

20227月:使用UE4进行虚拟场景搭建。

202210月:进行该项目的程序设计。

202212月:进行语言部分的设计,以及演讲信息的收集,已完成功能的调试。

20234月:完成项目UI设计,改进项目各部分内容。

20235月:完成并提交项目的结题报告、进行项目的答辩并完成专利等的申请。

1.  与本项目有关的研究积累和已取得的成绩

(1)  已有的研究积累

  已经细致学习了本项目相关的多项技术,能够熟练使用UE4Unity3D等游戏引擎,学习过嵌入式开发,了解VR设备的使用,并能对操作手柄进行改进。具有嵌入式开发基础,学习过Keil4MDK5,已完成对单片机的程序设计工作。

(2)  已有的专利项目

1.实用新型专利证书:一种信号转发装置(ZL 2019 2 1645038.9

2. 发明专利证书:语音查询方法(ZL 2018 1 1440115.7

1.  已具备的条件,尚缺少的条件及解决方法

(1)已具备的条件:

创新实验室独立工作位和讨论区。提供了UE43Dmax的学习资料以及开发平台,创新实验室提供开发环境和测试场地并且提供了测试用的VR临时设备。

计算机、3D打印机、机床等常用开发工具。创新实验室可以提供小型服务器。基本元器件、手柄设备以及其他耗用器材。

学校实验室有定位小组,累积多年对于网络定位协议的了解与经验,可以对系统协助测试并给出合理的建议与改进思路。

(2)尚缺少的条件及解决方法:

1.缺少HTC VIVE相关设备,但是可以用其他VR设备去代替,资金充足后再去应用HTC VIVE设备。

2.缺少人物建模的基础,但是小组成员可以通过学习3Dmax去完成建模计划。

        3.该项目演讲者的语言文字方面需要去进一步研究改进,如重复字、方言、结巴等问题,还需要去调查。

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 11980.00 业务 仪器购置 5180.00 6800.00
1. 业务费 6200.00 业务使用 3200.00 3000.00
(1)计算、分析、测试费 1000.00 VR开发研究 500.00 500.00
(2)能源动力费 1000.00 VR设备的使用 500.00 500.00
(3)会议、差旅费 500.00 技术学习,专家咨询 300.00 200.00
(4)文献检索费 1700.00 文献下载购买 900.00 800.00
(5)论文出版费 2000.00 论文出版,专利申请 1000.00 1000.00
2. 仪器设备购置费 980.00 VR设备选取与购买 480.00 500.00
3. 实验装置试制费 1000.00 实验装置实制 500.00 500.00
4. 材料费 3800.00 材料购买,实验测试 1000.00 2800.00
结束