详情

基于语音识别和自然语言处理的流调电话平台

申报人:钟晓洁 申报日期:2022-04-02

基本情况

2022
基于语音识别和自然语言处理的流调电话平台 学生申报
创新训练项目
工学
计算机类
学生自主选题
一年期
本项目拟搭建一个自动语音处理系统,将语音识别和自然语言处理技术运用到疫情期间的电话流调过程中。流调员需先在系统中进行用户注册和登录,在登录后只需将被调查人员的基本信息和联系方式录入系统,系统就会自动拨打电话给被调查人员并按设定好的问题进行提问,再根据被调查人员的回答调整接下来的对话内容。在通话结束后,该系统会将与被调查人员通话过程中的语音信息转化为文字信息,然后将通话内容以文字和语音两种方式存储。

1.设计和开发了普通时钟可调系统,创新实验室51单片机考核项目;

2.设计和开发了图书管理系统,Python自学作品;

3.参加校级ACM趣味编程大赛。

一、课题

1.无源辅助802.1x的井下定位与通信系统的研究和开发(2015ZH062),烟台市科技发展计划项目,2015 6 -2017 6 ,厅局级,1/5

2.创新创业实践,校级混合式教学改革立项课程 ,201712-201912,校级,1/9

3.校企联合创新孵化基地,(201602011036),教育部产学合作协同育人项目,-,201612-20181,教研,1/4

4.基于混合式课程的高校创新型人才培养体系研究与实践,(201801065007,教育部产学合作协同育人项目 ,20188-201912,教研,1/5

5.新工科校园众创空间创新人才培养基地,(201801284008,教育部产学合作协同育人项目, 20188-201912,教研,1/5

二、获奖

1.新工科背景下计算机类专业系统能力培养模式的研究与实践,山东省省级教学成果奖,一等奖,2018,5/10

2.智能猫眼,创青春省赛,银奖 2016

3.简易电子秤,全国大学生电子设计大赛,省级,三等奖,2016

4.自适应滤波器,全国大学生电子设计大赛省赛,一等奖,2017

5.可见光室内定位装置,全国大学生电子设计大赛省赛,一等奖,2017

6.基于IPv6的家庭安防系统,2018C4网络技术挑战赛,三等奖   2018

7.基于Type-C的便携仪甲醛测试仪,2018iCAN省赛,二等奖,2018

三、专利

ZL 2017 2 0905877.4ZL 2017 2 08788356.4ZL 2016 2 0321269.4ZL 2016 2 0320581.1

1.提供对系统设计的意见和部分修改的建议;

2.协调项目开发所需的科研资源;

3.项目经费上的监管:劳务费发放、实验费用的支出等;

4.项目实施过程中的技术上的指导:包括如平台搭建、数据分析、模型训练和论文撰写及投稿等

国家级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
钟晓洁 计算机科学与技术学院(人工智能学院) 网络工程 2021 语音识别、自然语言处理模块
胡锦来 计算机科学与技术学院(人工智能学院) 网络工程 2021 前端设计、MySQL数据库模块
阮皓颀 信息与电子工程学院 电子信息工程 2021 语音识别、自然语言处理模块
江承真 计算机科学与技术学院(人工智能学院) 网络工程 2021 语音合成、网络安全技术模块

指导教师

序号 教师姓名 所属学院 是否企业导师 教师类型
李大社 计算机科学与技术学院(人工智能学院)
王彬 计算机科学与技术学院(人工智能学院)

立项依据

当前,我国虽正处于后疫情时代,但偶尔会有疫情的小地区爆发,这给我国的疫情防控增添不少负担。人员流动调查,是疫情防控的一个不可或缺的环节,流调收集的信息能起到有效遏制疫情的关键作用,而目前这一任务主要由相关地区的流调员负责,只要一个地区的出现小规模的疫情爆发都会给流调员增加很大的工作负担。

近几年电话诈骗案件频出,人们的对陌生号码的提防心理加重,但由于疾控中心的随访座机有限,大部分流调员会使用私人手机号码拨打流调电话,人们对陌生的私人手机号的提防心理暗中给流调员再次增加了工作量。

该平台会针对以上问题制定相关的解决方案,旨在减少流调员的工作负担,减轻被调查人员的提防心理,提高流调工作的效率。

1.  自动语音处理系统的搭建

         


该系统基于语音识别和自然语言处理技术,其中包含MySQL数据库,网络安全等技术,达到自动拨打流调电话和记录通话内容的功能。系统结构如下图所示。


        自动语音处理系统结构图

2.  数据库

本项目拟采用MySQL数据库对系统内部代码和通话过程中需要存储的语音信号和文字信号进行存储。

3.  网络安全技术

使用基于SSL协议的VPN、防火墙等网络安全技术对网站进行保护和加密,保证被调查人员的信息安全。

4.  语音合成技术

使用Tacotron2——基于深度学习的端到端语音合成模型支持语音合成技术的声学系统部分,将需要提问的文字信号更准确的转化为语音信号输出。

5.  语音识别技术

使用傅里叶变换对语音信号进行分帧处理;使用梅尔频率倒谱系数(MFCC)作为特征参数,对语音信号进行特征提取;运用循环神经网络(Recurrent Neural Network RNN)和引入门控机制的长短时记忆(long short-term memoryLSTM)网络,对声学模型和语言模型进行训练,将语音信号转化为文字信号存储。

6.  自然语言处理技术

使用RNN-LATM对模型进行训练,提高系统识别语境和语义的智能性;在系统中录入详细的地图地名数据,提高自然语言处理中命名实体识别的准确度。

7.  神经网络训练模型

由于循环神经网络是一种基于时序数据的网络模型,因此传统的BP算法并不适用于该模型的优化,循环神经网络中最常用的优化算法为BPTTBackpropagation Through Time)算法。

国内的有关研究和发展动态:

我国的语音识别起步于国家的“863 计划“973 计划”,中科院声学所等研究所以及顶尖高校尝试实现长时语音的汉语识别工作,如今中文语音识别技 术已经达到了国际水准。清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。

第七次全国人口普查数据显示,与10年前相比,中国16岁至59岁劳动年龄人口减少4000多万人;2020年,65岁及以上人口为19064万人,占13.50%。老龄化进程加快,劳动年龄人口减少,中国人口红利似乎正在全面消退。因此,越来越多的公司为节省人力成本,将越来越成熟的AI技术运用到客服系统中,传统的人工客服模式逐渐向智能客服转型升级。

根据前瞻产业研究院发布的《中国呼叫中心产业市场前瞻与投资战略规划分析报告》,目前云客服企业所在的语音呼叫中心和在线客服两块存量市场看,其市场规模约为100-150亿元。而从增量市场看,以目前约500万的全职客服为基础数据,以年平均工资6万计算,再加上硬件设备和基础设施,整体规模约4000亿人民币。按照40-50%的替代比例,并排除场地、设备等基础设施以及甲方预算缩减,大概会有200-300亿规模留给智能客服公司。除了直接渠道客服人员,AI公司业有可以依托智能交互设备,获得200-300亿元的设备空间。

在对话务员业务水平要求极高的军用话务台方面,国内也出现了将智能语音的有关技术运用在其中的论文,但其仅用于军用号码的查询与转接,面向的人群范围较窄,研究过程中需要考虑的变量也较少。

2020年疫情爆发之初,国内一家智能客服系统提供商Udesk,利用智能语音客服系协助基层的疫情防控,后期也在国内多个城市上线,现正为我国的疫情防控做出巨大贡献。

但根据数据情况来看,市场上的大部分智能客服并不智能。2021 1 4 日,江苏省消保委发布《2021年江苏省消费投诉和舆情热点分析》。舆情监测数据显示,2021年江苏全省有关客户服务的敏感舆情信息共计135139 条。投诉热点主要集中在人工客服难接通、智能客服能力有限、客服处理不妥当、客服相互推诿、客服专业知识缺乏、服务态度恶劣等。同年528日,江苏省消保委发布客户服务便利度消费调查报告,对48APP客服进行调查,发现存在智能客服体验感差、答非所问,在线人工客服藏得深,电话人工客服难呼入等问题。

在中国青年报202216日发布的青年调查里分析了中国青年报社社会调查中心联合问卷网(wenjuan.com),对 2018 名受访者进行的一项调查。调查显示,87.9%受访者会优先选择有人工客服的平台。电商平台(59.3%)是受访者认为比较好用的智能客服平台,接下来是交通出行 平台(52.8%)、咨询平台(46.2%)、政务平台(31.2%)和在线教育平台(26.8%)等。

河北科技大学文法学院研究员梁跃民表示,大部分的智能客服做的仅是在开发者汇编了消费者的常见提问并在系统中录入的有关回答,智能客服通过识别消费者的关键词,再给出固定的答案。而本项目将语音识别和自然语言处理相结合,系统会根据被调查人员的回答做出回应或调整下一次的提问,使系统更加“智能”。

国外的有关研究和发展动态:

语音识别技术最早可以追溯到1952年贝尔实验室实现了针对特定说话人的英语数字孤立词语音识别系统。历经多次沉浮,20世纪80年代,以隐马尔可夫模型 (Hidden Markov ModelHMM)方法为代表基于统计模型的技术逐渐发展起来。20世纪90年代前期,许多大公司如IBM、苹果、AT&TNTT等均对语音识别技术进行了大规模的投入,但识别准确率很难超过90%2009年,Hinton DNN应用于语音的声学建模,基于DNN-HMM的建模方式逐渐取代 GMM-HMM,识别的精度大大提高,成为主流的语音识别建模方式。

对于全球语音识别的使用情况,统计显示,大多数语音识别公司都集中在美国,谷歌、IBM、微软等科技公司以及美国的研究公司都申请了多项认证。迄今为止,美国与语音识别相关的专利申请数量是世界上最高的。

呼叫中心起源于美国民航行业。一开始是为了给予客户相应的咨询服务,并合理地处理客户的投诉。随着计算机行业的发展,智能化成为了呼叫中心发展的必然趋势。当前欧美等发达国家的电信企业、交通企业以及商业银行基本都普及了智能化语音系统,利用智能语音系统直接与客户进行对话。尽管智能化语音系统建设前期需要投入大量的资金,但智能语音系统所释放的系统能力和人力资源也大大降低了运营成本。根据世界顶级调查机构opus的调查显示,采用智能化语音系统的企业,平均利用11个月的时间能够收回投入成本。

现在,智能语音的相关应用正向消费级和企业级两大方向爆发。其中消费级包括智慧生活场景、智能家居场景和智能驾驶场景,近期总的发展空间将达到3000亿元。企业级应用包括智慧教育场景、智慧医疗场景和应用于电信/金融/电商等场景的智能呼叫/客服场景。企业级场景近两年来受到疫情的加速催化,空间也即将达到千亿规模,但与消费级场景仍有一定的差距。且市场中的智能客服质量良莠不齐,大部分不仅不能给用户带来更方便的使用体验,还会给用户增添不可必要的麻烦。

在当前共克疫情难关的大环境下,本项目聚焦于解决抗疫中对人力需求较大的流调环节,利用语音识别和自然语言处理等技术搭建一个自动语音处理系统,帮助流调员调查疫情防控有关人员的行程轨迹,旨在减少流调员的工作负担,提高工作效率。

而本项目也针对目前市场上的智能客服出现的体验感差、答非所问,在线人工客服藏得深,电话人工客服难呼入等问题,给出了优化措施。本项目利用语音识别与自然语言处理两项技术,使得平台在与被调查人员的通话中,可以根据被调查人员的回答调整问题,尽可能模拟人与人之间的通话体验感,也避免固定的提问模式导致被调查人员信息的不完全。在系统与被调查人员沟通出现障碍,如系统出现无法识别的情况时,系统会主动向被调查人员询问是否要转入人工客服通道,被调查人员也可主动向系统提出要转接人工流调员的要求,系统会直接响应并运行相关转入程序。

1. 技术路线:

(1) 系统的基本框架的搭建与前端设计

使用PHPJava等编程语言搭建系统的基本框架,注册域名,利用虚拟主机放置站点和应用组件并提供必要的站点功能、数据存放和传输功能,使用HTMLCSSJavaScirpt对前端进行设计。

该系统建成后,将为流调员提供用户登录、被调查人员的信息录入和下载、 自动拨出被调查人员电话和以及通过文字和语音两种方式存储通话内容。

搭建过程如图1-1所示。


1-1 系统搭建流程图

(2)   语音合成模块

由于流调过程中与被调查人员进行短暂的对话,需要在尽量短的时间内提出明确的问题,所以语音合成部分在本项目中是较重要的一个环节。

语音合成技术主要包括语言分析部分和声学系统部分。语言分析部分主要进行文本结构和语种的判断,使文本标准化。如将阿拉伯数字转化为文字,这样便于进行文字标音等后续工作。接下来还需文本转音素阶段和句读韵律预测阶段。声学系统部分,本项目拟采用Tacotron2——基于深度学习的端到端语音合成模型。相比其一代Tacotron, Tacotron2使用的是普通的LSTMConvolution layerdecoder每一步只生成一个frame,并增加了一个5CNN来精调mel-spectrogram

语音合成技术路线具体如图2-1所示。


2-1语音合成技术路线

(3) 语音识别模块

 本项目拟将平台与被调查人的通话内容利用语音识别技术,主要讲将被调查人的语音信号通过预处理和特征提取,并与声学模型匹配,最终以文本信号的形势输出。

语音识别技术大致分为以下过程:语音输入、预处理、特征提取、声学模型处理和语言模型处理。具体过程如图3-1


3-1语音识别系统流程图

在语音识别过程中的对于语音信号的预处理,可以通过傅里叶变换。但傅里叶变换要求输入的信号是平稳的,而语音在宏观上看来是不平稳的,此时,就需要对语音信号进行分帧处理。信号分帧是将信号数字化后的语音信号分成短时信号作为识别的基本单位,利于分析其特征参数。

在进行语音识别之前,需要根据语音信号波形提取有效的声学特征。特征提取的性能对后续语音识别系统的准确性极其关键,因此需要具有一定的鲁棒性和区分性。本项目拟采用梅尔频率倒谱系数(MFCC)作为特征参数,因其计算简单,在低频部分也有良好的频率分辨能力,在噪声环境下具有一定的鲁棒性等特点。

在语音识别中的声学模型和语言模型部分,本项目拟采用深度神经网络中的循环神经网络(Recurrent Neural Network RNN)来对模型进行训练。在RNN的网络结构中,当前时刻的输出依赖记忆与当前时刻的输入,对于语音信号的上下文相关性建模非常有优势。但RNN存在因梯度消失和梯度包扎而难以训练的问题,于是在引入门控机制的长短时记忆(long short-term memoryLSTM)网络的梯度传播更加稳定。LSTM-RNN对语音的上下文信息的利用率更高,识别的准确率与鲁棒性也均有提升。

LSTM网络引入门控机制(Gating Mechanism)来控制信息传递的路径。其中三个“门”分别为输入门、遗忘门和输出门。这三个门的作用为:

1) 遗忘门控制上一个时刻的内部状态需要遗忘多少信息;

2) 输入门控制当前时刻的候选状态有多少信息需要保存;

3) 输出门控制当前时刻的内部状态有多少信息需要输出给外部状态

=0=1时,记忆单元将历史信息清空,并将候选状态向量写入。但此时记忆单元依然和上一时刻的历史信息相关。当=1=0时,记忆单元将复刻上一时刻的内容,不写入新的信息。

LSTM网络的循环结构单元如图3-2所示。其计算过程为:

1) 首先利用上一时刻的外部状态和当前时刻输入的,计算出三个门以及候选状态

2) 结合遗忘门和输入门来更新记忆单元

3) 结合输出门,将内部状态的信息传递给外部状态


3-2 LSTM网络的循环单元结构

通过LSTM循环单元,整个网络可以建立较长距离的时序依赖关系。公式如下:


其中为当前时刻的输入,为网络参数。

传统的语言模型n-gram时一种具有强马尔科夫独立性假设的模型,但会因为训练语料不足或者词组使用频率过低等常见因素,测试集中可能会出现训练集中未出现过的词或某个子序列未在训练集中出现,这将导致n-gram语言模型计算出的概率为零,这种情况被称为未登录词(out-of-vocabularyOOV)。此外,n-gram模型还有泛化能力弱,缺乏长期依赖的问题。

随着深度学习的发展,语言模型的研究也开始引入深度神经网络。从n-gram模型可以看出当前词组出现依赖于前方的信息,因此很适合用循环神经网络(Recurrent Neural Network RNN)进行建模。RNNLM(基于RNN的语言模型,Language Model)中隐含层的循环能够获得更多的上下文信息通过在整个训练集上优化交叉熵来训练模型,使得网络能够尽可能建模出自然语言序列与后续词之间的内在联系。其优势在于相同的网络结构和超参数可以处理任意长度的历史信息,能够利用神经网络的表征学习能力,极大程度避免了未登录问题。

语言模型的性能通常采用困惑度(PPL)进行评价。PPL定义为序列的概率集合平均数的倒数,其公式定义如下:


PPL越小表示在给定历史上出现下一个预测词的概率越高,该模型的效果越好。

(4) 自然语言处理模块

本项目拟利用自然语言处理技术让平台更加“智能”,通过分析于被调查人员的回答结果,调整回答或者下一个要提问的问题。

自然语言处理技术时实现人机语音交互的重要手段,其主要技术包括分词、词性标注、命名实体识别、依存句法分析、语义角色标注和特定语境语义解析。技术处理如图4-1所示。


4-1 自然语言处理技术

其中命名实体识别时指从语言文本中提取具有特定类别的实体名词。实体命名识别时机器语言信息检索、语义查询、语义分析等的基本过程,其处理效果直接影响到整体的语义理解和分析。在本项目中,平台需要准确识别出被调查人员的行程轨迹,针对此,命名实体识别的主要对象是各类地点名称。

基于具体应用语境的自然语言处理,主要包括基于事物组合图谱寻找语言语境中类似事物组合场景、用类似事物场景的属性理解相应话语场景、调取知识图谱活事物组合图谱进行深入数据分析。处理流程如图4-2所示。


4-2 基于具体语境的自然语言处理

通过应该语境的分析,可以对语义图画所展现的内容进行联想,这类联想会扩展语义的数量,如果将语境所以事物按照可能性组合进行分类,可以提取相关类似场景,进行归纳分析后,得到最有可能表达的含义,从而实现人类语言到机器语言的筛选和识别过程。在语境中的事物出现多种组合时,应当具体分析每一种语义的组合形式,通过纠错机制,对具体理解有误的语言进行纠正,替换成正确的语义,可以实现语境分析引擎的快速搜索和智能识别。

(5) 数据库模块

由于本项目主要的存储内容为被调查人的基本信息和行程记录,所以需要一项功能强大的数据库系统来存储。

Oracle数据库系统是数据库领域领先地产品,但由于其属于闭源产品同时价格昂贵,所以本项目选择MySQL数据库作为系统的存储工具。MySQL数据库是免费的开源项目,更适合大学生进行学习与运用。MySQL安装完成后所占用的内存远小于Oracle所占用的内存,并且Oracle越用所占的内存也会变多,可能会给系统后期增加负担。且MySQL为用户提供了多种数据库存储引擎,可以适用于不同场合,可以处理每天访问量超过数亿的搞强度的搜索Web站点且拥有支持跨平台、运行速度快、支持面向对象、安全性高等特点,选择其为本项目的存储系统十分合适。

结合数据库的Web站点开发流程为:将网站的内容存储在MySQL数据库中;然后使用PHP通过SQL插叙获取这些内容并以HTML格式输出到浏览器中显示。或者将用户在表单中输出的数据,通过PHP程序中执行SQL查询,将数据保存在MySQL数据库中。也可以在PHP脚本中接受用户在网页上的其他相关操作,再通过SQL查询对数据库中存储的网站内容进行管理。

结合数据库的Web站点开发流程如图5-1所示。


5-1结合数据库的Web站点开发流程

(6) 网络信息安全模块

  目因需要存储大量被调查人员的基本信息,其中包括姓名、联系方式、身份证号码、居住地址等重要的个人信息,所以需要维护被调查人员的信息安全也是十分重要的一部分。本项目拟采用基于SSL协议的VPN和防火墙等网络安全技术,对系统和数据库进行加密。

SSL的体系结构中包含两个协议子层,其中底层是SSL记录协议层(SSL Record Protocol Layer),高层是SSL握手协议层(SSL HandShake Protocol Layer)。SSL协议体系结构如图6-1所示。


6-1 SSL协议体系结构图

SSL记录协议层的作用是为高层协议提供基本的安全服务。SSL记录协议针对HTTP协议进行了特别的设计,使得超文本的传输协议HTTP能够在SSL运行。记录封装各种高层协议,具体实施压缩解压缩、加密解密、计算和校验MAC等于安全有关的操作。

SSL握手协议包括SSL握手协议(SSL HandShake Protocol)、SSL密码参数修改协议(SSL Change Cipher Protocol)和SSL警告协议(SSL Alert Protocol)。握手层的这些协议用于SSL管理信息的交换,允许应用协议传送数据之间相互验证,协商加密算法和生成密钥等。

SSL VPN是一种基于SSL协议的VPN实现,VPN的安全性和独立性依赖于包封装技术,利用SSL协议加密算法和身份认证,构建安全的虚拟专业网络。SSL VPN网络结构如图6-2所示。


6-2 SSL VPN网络结构示意图

SSL VPN服务器工作过程:客户端(办公电脑主机)向SSL VPN服务器发送https请求;SSL VPN服务器验证客户端发送的身份信息以及证书, 通过 SSL协议的握手创建SSL安全隧道;认证模块成功确认客户端身份后,生成全局唯一的不可逆的 cookie,并将其发送给访问控制模块;访问控制模块根据用户的角色权限给用户分配可访问服务列表,客户端据此可以访问相应的信息平台;客户端访问信息平台内容,SSL VPN服务器通过鉴权认证等方式建立安全透明的隧道,并把信息平台的数据定向发送到客户端电脑。

在该系统中,流调员登录 VPN 客户端,输入预先分配好的账户,SSL VPN服务器收到请求后验证账户,建立与账户对应的信息平台服务器与客户端主机之间的安全隧道。而非法用户没有SSL VPN账户,则无法登录信息平台,其数据包被阻挡在防火墙和SSL VPN服务器之间,无法进入信息平台服务器所在的网络,从而保证了安全性。

(7) 神经网络训练模块

在实际应用中,RNN常常面临训练方面的难题;尤其随着模型深度不断增加,使得RNN并不能很好地处理长距离的依赖。Jacobian矩阵的乘积往往会以指数级增大或者减小,其结果时使得长期依赖特别困难。

通常使用 BPTT算法来训练RNN,对于基于梯度的学习需要模型参数和损失函数L之间存在闭式解,根据估计值和实际值之间的误差来最小化损失函数,那么在损失函数上计算得到的梯度信息可以传回给模型参数并进行相应修改。 假设对于序列,通过将上一时刻的状态映射到下一时刻的状态T时刻损失函数关于参数的梯度为:


根据链式法则,将Jacobian矩阵分解如下:


循环网络若要可靠地存储信息,,也意味着当模型能够长距离依赖z时,其本身也处于梯度消失地情况下。随着时间跨度增加,梯度也会以指数级收敛于0.时,发生梯度爆炸地现象,网络也陷入局部不稳定。

2. 拟解决的问题:

(1) 语音识别结果的准确度达到90%以上;

(2) 声学模型和语言模型的训练、优化;

(3) 自然语言处理过程的训练、运用;

(4) 对被调查人员的信息的加密处理。

3. 预期成果:

(1) 该平台能准确地拨打被调查人的电话,并自动调整通话内容,获取到需要的信息;

(2) 能准确地识别出与被调查人的通话内容,将其转化为文字信号反馈给流调员;

(3) 被调查人员的信息得到加密处理,需要提取权限;

(4) 申请软件著作权。

第一阶段(2022.4.1-2022.5.1):

方案的论证、设计和资料收集;

第二阶段(2022.5.1-2022.7.1):

系统的搭建和数据库模块;

第三阶段(2022.7.1-2023.1.1):

语音合成模块、语音识别模块、自然语言处理模块、神经网络算法模块和网络信息安全模块;

第四阶段(2023.1.1-2023.4.1):

系统的测试与优化。

(1)   熟练掌握CPython等编程语言,而且对深度学习有一定的了解;

(2)   熟练掌握C#HTML等与网站的搭建和设计有关的编程语言;

(3)   小组成绩前列,组内成员曾在大一上学期参加了全国大学生电子设计大赛。

已具备的条件:

(1) 创新实验室可以提供独立工作位和小组讨论区,为网站的开发和测试提供了环境;

(2) 该项目所需要的计算机,小型服务器等其他常用耗材,学校实验室均可提供;

(3) 创新实验室有工学实验中心支撑,具有完善的B2级数据中心,具备相应的超级计算算力共享条件。

尚缺少的条件:

(1) 对利用神经网络建立模型缺乏经验;

(2) 网络安全技术在本项目中的实际应用,如数据的存储、传输和用户隐私保护等方面,仍需进一步实践;

(3) 并行算力不足。

解决方法:

(1)  网络查询资料;

(2)  通过指导教师协调相关科研资源。

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 8500.00 用于项目研究 3500.00 5000.00
1. 业务费 3500.00 收集可用信息 1400.00 2100.00
(1)计算、分析、测试费 1500.00 用于处理语音信息 600.00 900.00
(2)能源动力费 0.00 0.00 0.00
(3)会议、差旅费 0.00 0.00 0.00
(4)文献检索费 1000.00 用于在中国知网、万方数据库等网站检索相关文献 600.00 400.00
(5)论文出版费 1000.00 论文、期刊等发表时所需的必要费用 200.00 800.00
2. 仪器设备购置费 3000.00 服务器租赁 1000.00 2000.00
3. 实验装置试制费 500.00 200.00 300.00
4. 材料费 1500.00 对语音信号进行处理分析时所产生的必然固件损耗及办公用品 900.00 600.00
结束