基于大数据的大学生异常行为分析及预警研究

申报人:肖青茂 申报日期:2024-06-30

基本情况

2024
基于大数据的大学生异常行为分析及预警研究 盲选
创新训练项目
理学
数学类
学生自主选题
一年期
本项目通过挖掘大学生的图书馆借阅、消费、校园网络、体育锻炼等行为数据与学生成绩,探究各行为间及其与成绩间的关联性,并预测潜在的异常行为风险;运用关联分析、方差分析、大数据可视化分析及机器学习算法,挖掘影响学生异常行为的关键因子,建立异常行为及学业预警模型;利用多种评价指标对模型训练与测试,给出最优模型。本项目将有助于高校相关主体及时发现并干预学生异常行为,对学生管理及教学管理工作具有重要意义。

基于教务管理系统学生成绩评价与应用研究-国家级大学生创新项目(已结题)

基于深度学习的智能故障诊断关键技术研究-企、事业委托项目

基于特征选择的核动力系统故障诊断方法研究-企、事业委托项目

基于多模态知识图谱的统计与数据分析类课程群建设研究与实践-黑龙江省教育科学规划重点课题

1.监督项目进展情况,督促团队成员按时完成各项任务,定期召开讨论班;

2.对项目提出可靠性建议,指导撰写论文;

3.宏观调控进度安排,及时解决团队出现的问题。

省级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
肖青茂 理学院 信息与计算科学 2023 建立大学生异常行为行为模型和学业预警模型
程俊涛 理学院 信息与计算科学 2023 基于多种方法,分析研究影响学生异常行为的关键因子
张雨欣 理学院 信息与计算科学 2023 分析各项行为之间的关系,并探究行为与成绩之间的潜在联系
潘毅 理学院 信息与计算科学 2023 查阅相关国内外文献综述,完成项目申请书
白晋先 理学院 信息与计算科学 2023 收集各项行为数据,并对数据进行预处理、数据可视化分析

指导教师

序号 教师姓名 所属学院 是否企业导师 教师类型
郎迪 理学院
周晓晶 理学院

立项依据

在数字化时代的浪潮中,互联网技术正在以前所未有的速度渗透并革新着大学校园,催生出一个由大学生频繁信息交流形成的数据海洋。这些数据涵盖了学习成绩、课程选择等关键学习行为,同时深刻反映了学生的日常行为、社交互动以及心理动态等多维信息。面对庞大的数据量,如何高效利用以优化教育管理,成为教育领域亟待解决的重大课题。

本研究聚焦于深度挖掘大学校园内大数据的教育管理价值,基于就餐行为(如就餐时间、次数、平均消费金额、就餐区域等)、图书馆借阅行为(如借阅时间、还书时间、书名偏好、借阅频率、进出图书馆次数等)、校园网络行为(如在线时长、时段分布、游戏时长、平均上网时间等)、体育锻炼(锻炼方式、锻炼时长、锻炼地点等)以及行为轨迹等多维数据。通过数据整合、深度挖掘技术和机器学习算法精准分析,能实时洞察学生的学习与生活状态,精准预测其学业成绩走势,并敏锐捕捉异常行为及时进行预警,建立高效的大学生异常行为预警模型。这不仅为深入理解学生行为模式、预测异常行为、揭示行为与成绩之间复杂关系提供了宝贵契机;而且,还能极大提升学校管理的智能化和高效化水平,为高校教育管理提供科学依据;更能为学生提供精准的、个性化的学习支持和成长引导,促进他们全面发展。

此外,本研究成果还可为其他高校提供示范、推广和借鉴。

1.揭示大学生各行为指标关联关系,得出其与学习成绩的内在联系。依托我校现代教育技术与信息中心监控系统监测的大学生高维海量实时行为数据,如:消费行为(包括就餐时间、次数、平均消费金额、就餐区域等)、图书馆借阅行为(包括借阅时间、还书时间、书名偏好、借阅频率、进出图书馆次数等)、校园网络行为(包括在线时长、时段分布、游戏时长、平均上网时间等)、体育锻炼(包括锻炼方式、锻炼时长、锻炼地点等)以及行为轨迹等,完成数据收集、整理与可视化分析,直观地展现学生的行为模式;采用异常值筛选、缺失值补全、冗余值剔除等方法对数据进行预处理,以确保数据的准确性与可分析性;基于单因素方差分析,研究各行为之间、各行为与成绩之间的潜在联系。

2.挖掘异常行为关键影响因子。对异常行为概念进行界定;基于关联分析法、数据挖掘技术,分析研究影响学生异常行为的关键因子。

3.提出异常行为及学业预警机制。建立学生异常行为预警模型、学业预警模型。基于多种机器学习算法(贝叶斯判别分析、神经网络、决策树、随机森林、支持向量机、Logistic回归分析等)建立涵盖关键影响因子的异常行为预警模型、学业预警模型;通过准确率、召回率、精准率等评价指标,全面评估各模型的效果,并给出最优模型。

4.考虑任课教师、班主任、辅导员等各教育主体的调研意见与建议,结合所建立预警模型,为大学生异常行为预警及学业预警机制给出具体的实施方案。

异常值,也被称为偏差值或离群值。自1960年以来,在医疗风险评估、人工智能安全等诸多领域中均发挥着举足轻重的作用[1]。在数据挖掘技术领域内,异常检测被定义为识别那些显著偏离整体数据分布模式的特殊数据点。该过程,在数据挖掘、机器学习等领域内都有广泛应用[2]

当前,利用数据挖掘技术深度分析大学生在日常生活中的行为模式,已成为国内外学者研究的热点。该方法旨在通过数据分析,实现对可能产生异常行为学生的及时预警和有效干预,促进学生健康发展。

4.1国内研究综述:

在过去的学术研究中,国内多名学者通过采用不同的数据挖掘工具与算法,深入剖析了学生行为与学业成绩之间的潜在联系,同时为学生管理和学业预警提供了新的视角,并对异常行为进行干预。王家胜(2011)在图书借阅数据的多维分析中,通过关联规则算法,揭示了读者类型、年级、图书类型等多元数据之间的内在关联[3];类似地,陈益均(2013)通过加权贝叶斯算法,探讨了学生上网行为与大学英语四级通过率的关联性,并发现两者之间存在显著联系[4];田娜(2014)以学生群体为研究对象,利用K-means算法深入分析了影响学生成绩的多重因素[5]

蒋卓轩(2015)的研究则更进一步,他通过NBC算法挖掘了成绩与学生学习行为间的深层关联,并据此构建了学业成绩的预测模型[6]胡祖辉(2017)在结合决策树、逻辑回归和关联规则等多种算法的基础上,分析了学生上网行为和成绩的关联,结果发现两者之间存在密切的相关性[7]肖建华(2017)建立发现异常消费行为的线性回归模型,通过校园一卡通数据挖掘大学生在日常消费过程中出现的异常行为,实现异常行为早预警[8];程永亮(2017)提出了改进的模糊C-均值聚类算法,从消费行为、上网行为、成绩等多维度数据出发,鉴定了大学生行为中的异常行为[9];王子清(2018)运用NBC-IFPA算法,分析了大学生上网行为和成绩,明确了影响成绩的关键因素,并构建预警模型[10]丁国勇(2019)则基于教育数据挖掘技术,预测了大学生实验课成绩,并利用学生的基础信息(性别、年级、成绩等)、图书馆行为等数据,评估了支持向量机、决策树等算法的有效性[11]于沁杨(2019)利用北京某院校的本科生在图书馆借阅、洗浴、消费、上网等行为的数据,实现了异常个体检测、群体关联分析、异常行为可视化[12];李铁波(2019)融合决策树、神经网络和朴素贝叶斯算法,以大学生消费行为、生活行为和学习成绩等行为,进行了预测和验证分析[13];祝彦森(2019)则提出了一种结合K-means和孤立森林算法的新方法,用于学生异常行为的检测与分析[14]Zeng2020)针对学业异常预测问题,提出了基于高阶注意力机制的混合神经网络模型[15];戴群(2020)基于决策树等数据挖掘技术,及时识别学生学习、生活、消费等异常行为,并设计实现了学业预警机制[16];喻宏伟(2021)通过监测学生成长并关注异常行为的学生,提出了多片段语义时空图卷积网络模型,有效预测了大学生异常行为[17];而Shi(2022)则通过AprioriBP神经网络算法,探讨了图书借阅与学生成绩的关系,并构建了成绩预警模型[18]李慧芳(2021提出了一种基于特征加权的密度峰值聚类算法,有效地对大学生异常行为进行检测[19]刘建华(2021)对TextRank算法进行改进,并利用随机游走技术,实现了异常检测功能[20];张恒维(2022)通过深度神经网络方法,建立了一个基于校园大数据的异常行为识别模型,该模型利用大学生的多元信息数据进行异常行为的高效预测和诊断[21]王玉标(2024)结合长短时记忆神经网络与大学生行为的多指标数据,有效提高了异常行为预警的准确性[22]彭琳(2024)基于大学生成绩和一卡通数据,构建了异质行为分析模型,并探讨了作息规律与成绩间的潜在联系[23]

4.2国外研究综述:

Aandergassen(2014)的研究颇具前瞻性,他通过相关分析与回归分析的方法,深入探讨了混合学习课程中学习结果与学习系统使用间的潜在联系。研究指出,考试准备阶段的练习与迁移学习对成绩尤为重要[24];紧接着,Campagni(2015)运用聚类和序列模式技术,识别出提升学生表现的有效策略,还为考试安排提供了科学依据[25]Mojarad(2018)基于学生实时行为数据,结合问卷调查和人口统计学数据,成功构建了“学生画像”。通过追踪学生日常学习状态,为期末成绩和就业情况提供了预警[26];而Sarra(2019)的研究聚焦于影响学习成绩的各个因素[27]Nam(2019)的研究则指出,传统的学生异常行为预警的局限性[28]Sravani(2020)结合学生背景、历史成绩等信息,运用线性回归和机器学习算法预测学生成绩[29]Quinn(2020)通过构建课程数据分类器,分析了Moodle数据,预测了学生学习成绩[30];同样地,Gonzalez-Nucamend(2021)依据多元智能理论及学习策略,构建了学生画像,并定量分析了不同维度对学业成绩的影响[31]Resmi2024)利用线性回归模型对学生的日常行为进行评估,以确定其预测的适用性。

综合考虑学生的实时行为数据、文本信息以及行为相似度,可以极大地提高预测和预警的时效性、动态性和准确性。这种从后置性预警到前置性预警的转变,对于促进学生的全面发展具有重要的指导意义。未来,可以借鉴国内外成功案例,加强跨学科合作,推动学生行为分析领域的进一步发展[32]

参考文献

[1]  Aggarwal C C. An introduction to outlier analysis[M]. Outlier analysis. Springer, Cham, 2017:1-34.

[2]  Guansong Pang, Chunhua Shen, Longbing Cao, et al. Deep learning for anomaly detection:a review[J].Acm Computing Surveys, 2021, 54(2).

[3]  王家胜, 牟肖光. 读者借阅多维关联规则挖掘模型的建立与分析[J]. 计算机应用, 2011, 31(11):3084-3086.

[4]  陈益均, 殷莉. 基于数据挖掘的学生成绩影响模型的研究[J]. 现代教育技术, 2013, 23(1):94-96.

[5]  田娜, 陈明选. 网络教学平台学生学习行为聚类分析[J]. 中国远程教育, 2014, 21(11):38-41.

[6]  蒋卓轩, 张岩, 李晓明. 基于MOOC数据的学习行为分析与预测[J]. 计算机研究与发展, 2015, 52(3):614-628.

[7]  胡祖辉, 施佺. 高校学生上网行为分析与数据挖掘研究[J]. 中国远程教育, 2017, 2(2):26-32.

[8]  肖建华, 冯维华, 湛思思. 基于消费大数据的学生异常行为研究[J]. 现代经济信息, 2017(23):106-107.

[9]  程永亮. 高校学生日常行为异常检测的一种改进模糊聚类方法[D]. 大连海事大学, 2017.

[10]  王子清. 大学生学习行为分析研究与应用[D]. 苏州大学, 2018.

[11]  丁国勇, 秦新国, 王雪. 基于教育数据挖掘的大学生实验课成绩预测研究[J]. 中国教育信息化, 2019(13):41-44.

[12]  于沁杨. 基于校园大数据的学生异常行为分析及可视化[D]. 北京工业大学, 2019.

[13]  李铁波. 基于校园大数据的学生行为特征分析与预测方法[J]. 重庆理工大学学报(自然科学), 2019, 33(07):201-206.

[14]  祝彦森. 基于改进iForest的学生异常行为检测及分析系统研究[D]. 南京信息工程大学,2019.

[15]  Zeng Y, Ouyang Y, Gao R, et al. HHA:An attentive prediction model for academic abnormality[J]. IEEE Access, 2020, 8:124755-124766.

[16]  戴群, 王一博. 基于数据挖掘的高校学生学业预警体系研究[J]. 农家参谋, 2020(20):230-231.

[17]  喻宏伟, 周东波, 徐雯慧, . 基于多片段语义时空图卷积网络的大学生校园日常行为预测[J]. 清华大学学报(自然科学版), 2022, 62(1):105-115.

[18]  Shi C X, Tan Y. A BP neural network-based early warning model for student performance in the context of big data. Journal of Sensors, 2022, 2022:2958261.

[19]  李慧芳, 钟新成, 付晓丽. 基于密度峰值聚类的大学生异常行为检测研究[J]. 电脑与电信, 2021(03):26-29.

[20]  刘建华, 常发财. 基于一卡通学生行为的知识库构建与应用[J]. 西安邮电大学学报, 2021, 26(03):98-104.

[21]  张恒维, 于合龙, 乔羽, . 基于DNN的大学生异常行为诊断模型的研究[J]. 现代电子技术, 2022, 45(13):57-61.

[22]  王玉标, 陶八梅, 李珩, . 大数据环境下多模态融合的大学生异常行为预警[J]. 计算机系统应用, 2024, 33(01):167-176.

[23]  彭琳, 宋珺, 刘安栋, . 基于异常点检测的大学生异质行为分析[J]. 软件导刊,2024, 23(04):193-198.

[24]  Andergassen M, Modritscher F. Practice and repetition during exam preparation in blended learning courses: correlations with learning results[J]. Journal of Learning Analytics, 2014, 1(1):48-74.

[25]  Campagni R, Merlini D, Sprugnoli R, et al. Data mining models for student careers[J].Expert Systems with Applications, 2015, 42(13):5508-5521.

[26]  Mojarad S, Essa A, Mojarad S, et al. Data-driven learner profiling based on clustering student behaviors: Learning consistency, pace and effort. International conference on intelligent tutoring systems[J]. Proceedings of the 14th International Conference on Intelligent Tutoring Systems. Montreal: Springer, 2018:130-139.

[27]  Sarra A, FontanellaL, Di ZioS. Identifying Students at Risk of Academic Failure Within the Educational Data Mining Framework[J]. Social Indicators Research, 2019, 146(1-2):41-60-55.

[28]  Nam S J, Samson P. Integrating students’ behavioral signals and academic profiles in early warning system[J]. Proceedings of the 20th International Conference on Artificial Intelligence in Education. Chicago: Springer, 2019:345-357.

[29]  Sravani B, Bala M M. Prediction of student performance using linear regression. Proceedings of the 2020 International Conference for Emerging Technology(INCET)[J]. Belgaum:IEEE, 2020:1-5.

[30]  Quinn R J,Gray G. Prediction of student academic performance using Moodle data from a further education setting[J]. Irish Journal of Technology Enhanced Learning, 2020, 5(1):1-19.

[31]   Gonzalez-Nucamendi A, Noguez J, Neri L, et al. The prediction of academic performance using engineering student’s profiles[J]. Computers & Electrical Engineering, 2021, 93:107288.

[32]   Resmi, T J, Manoj Koshy Mathews, Shobana Padmanabhan. Statistical Analysis of Student Data and Machine Learning Models for Performance Prediction[J]. 2024 4th International Conference on Data Engineering and Communication Systems (ICDECS), 2024:1-5.

创新点:

1.利用统计分析及数据挖掘技术,挖掘学生各种行为,如图书馆借阅行为、上网行为、消费行为、行动轨迹等一级指标与学习成绩之间的关系;

2.基于经典机器学习算法建立异常行为预警模型,提取大学生异常行为的重要特征,多种预警模型对比分析,确定最优预测模型。

项目特色:

首先,本项目综合运用学生所学知识,能解决教育、教学相关部门困扰的大学生异常行为、学困生等相关问题研究;其次,可以根据本项目指导多篇本科毕业论文。


研究方案:

1.文献调研与理论分析:首先,界定核心概念;其次,调研国内外关于机器学习算法与数据挖掘技术的研究现状和发展动态,明确主要研究方法、掌握机器学习算法与数据挖掘技术的理论内容;最后,调研国内外关于大学生异常行为与成绩之间关系的研究现状和发展动态,为主要研究内容奠定理论支持。

2.数据收集与处理:收集在校生就餐行为(如就餐时间、次数、平均消费金额、就餐区域等)、图书馆借阅行为(如借阅时间、还书时间、书名偏好、借阅频率、进出图书馆次数等)、校园网络行为(如在线时长、时段分布、游戏时长、平均上网时间等)、体育锻炼(锻炼方式、锻炼时长、锻炼地点等)以及行为轨迹等高维海量数据,并进行数据可视化分析。

3.统计分析与数学建模:运用多种机器学习算法和数据挖掘技术,建立学生异常行为预警模型及各指标与学习成绩的模型,探究异常行为关键因子与学习成绩内在关系。

4.归纳总结:根据结果归纳总结大学生异常行为及学业预警机制。

基于以上研究方案,本项目拟达到以下预期成果:

1.研究报告1份;

2.发表学术论文1-2篇;

3.心得体会5份。

拟解决的问题:

1.明确各指标之间关系,挖掘异常行为关键影响因子,确定与学习成绩内在联系;

2.基于多种机器学习方法建立学生异常行为预警模型,寻找最优模型。

技术路线:

2024.06-2024.12 界定核心概念;明确主要内容与主要方法;掌握机器学习算法及数据挖掘技术;收集整理在校生行为数据,并开展可视化分析;明确各指标之间关系,挖掘异常行为关键影响因子,确定与学习成绩内在关系,发表1篇论文;

2025.01-2025.03 基于多种机器学习方法建立学生异常行为预警模型,及各指标与学习成绩的模型,分析解释结果,根据结果归纳总结大学生异常行为及学业预警机制,发表1篇论文;

2025.04-2025.06 总结和结题。

1)理论基础:项目组成员均是信息与计算科学专业学生,有较强的统计分析、数据处理与分析、数学建模等理论基础,熟练掌握SPSSPython软件等,动手操作能力较强。

2)技术支持:指导教师参加过国家级大创项目且为负责人,发表相关方向论文3篇,研究方向为系统建模与分析,具有较强的编程基础;且参加过多项科研项目。

3)实验基础:本项目依托理学院创新实验室。

已具备条件:

团队之间能够进行团队合作,且团队成员年级呈现阶梯状,时间充沛能够保证项目有序推进;本项目数据来源清楚,各指标已经确定,研究方法明确;指导教师参加过多项科研项目,经验丰富。

缺少条件:

由于团队成员目前均是低年级学生,对部分相关技术和机器学习算法掌握程度有待加强。

解决办法:

系统的学习多元统计分析、数据挖掘基础、人工智能基础(机器学习算法)等相关课程,充分利用学校现有资源以及如哔哩哔哩,中国大学生慕课等网络资源,进行可视化分析、数据挖掘技术的学习。

通过上述措施,我们将不断完善项目的试验条件基础,确保项目的顺利实施和高质量完成。

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 10000.00 6350.00 3650.00
1. 业务费 8000.00 版面费6000元,差旅费2000元 5000.00 3000.00
(1)计算、分析、测试费 0.00 0.00 0.00
(2)能源动力费 0.00 0.00 0.00
(3)会议、差旅费 2000.00 专家咨询费1000元,调研费1000元 1000.00 1000.00
(4)文献检索费 0.00 0.00 0.00
(5)论文出版费 6000.00 发表学术论文以及论文查重等相关费用 4000.00 2000.00
2. 仪器设备购置费 500.00 购买优盘、硒鼓等 350.00 150.00
3. 实验装置试制费 0.00 0.00 0.00
4. 材料费 1500.00 打印、复印、装订费 1000.00 500.00

项目附件

  • 基于大学生异常行为分析及预警研究_简洁报告.pdf
    下载
结束