五一数学建模竞赛

获奖证书

查看证书
查看证书

论文下载

完整竞赛论文(17 页)可通过以下链接查看或下载。

问题描述

赛题要求基于某社交媒体平台 2024 年 7 月 11 日至 20 日的用户与博主互动数据,构建数学模型解决四个递进式预测问题:(1)预测各博主次日新增关注数并筛选 TOP5;(2)融合历史与实时数据预测用户新关注行为;(3)预测指定用户在线状态及最可能互动的 TOP3 博主;(4)细化至小时级,预测用户分时段在线行为及对应时段互动最多的博主。

建模方法与技术路线

针对四个问题,我们构建了一套多任务协同的数学模型体系,涵盖时序回归、行为转化预测、在线状态判别和分时段动态推荐四大模块。

四个问题的建模策略

问题核心方法关键技术主要结果
问题一:博主新增关注数预测XGBoost 回归滑动窗口特征、移动平均、周期性特征(星期几效应)、正则化防过拟合R² = 0.89,TOP5 博主中 B21 预测新增 500.4 关注
问题二:用户新关注行为预测双通道预测框架个性化通道(逻辑回归建模转化规律)+ 热度通道(改进 SIR 模型量化传播力),融合地理匹配系数与时段修正因子以用户 U7 为例,成功预测其新增关注 B23、B27、B7
问题三:用户在线状态预测线性加权融合模型目标星期活跃次数(权重 0.4)、活跃天数(0.3)、近期活跃间隔(0.2)、活动总数(0.1),阈值 P≥0.5 判定在线综合互动指数推荐 TOP3 博主
问题四:分时段行为预测分时段动态建模小时级活跃频率统计 + 全局热度指标 + 个性化互动基数,引入衰减因子抑制马太效应新晋博主曝光率提升 12%

关键图表与结果可视化

为更直观展示模型从特征构建到行为预测的完整流程,本节选取四类代表性结果图:XGBoost 特征重要性、TOP5 博主关注趋势、在线状态预测诊断图,以及小时级分时段推荐结果。这些图表分别对应新增关注预测、在线状态判别和分时段互动推荐等核心任务,展示了模型在特征解释性、时序预测和用户行为刻画方面的输出结果。

XGBoost 模型特征重要性图
图:XGBoost 模型特征重要性。结果显示,历史关注滞后特征、滑动窗口统计量和互动行为特征对博主新增关注数预测贡献较高,为后续 TOP5 博主筛选提供了可解释依据。
TOP5 博主关注趋势折线图
图:TOP5 博主关注趋势及预测结果。折线展示了高增长博主在历史时间窗口内的关注变化轨迹,并标记 2024-07-21 的预测点,用于支撑新增关注数排序与 TOP5 博主筛选结果。
用户在线状态预测诊断图
图:用户在线状态预测与互动热度诊断。该组图综合展示在线概率分布、预测互动热度最高的 TOP20 博主、不同概率阈值下的用户数量变化,以及用户活跃间隔与预测在线概率之间的关系,用于验证在线状态判别模型的合理性。
用户分时段互动推荐结果图
图:问题四分时段互动推荐结果。图中展示了指定用户在不同小时段的活跃分布、候选互动博主及热度矩阵,体现了模型从"是否在线"进一步细化到"何时在线、与谁互动"的小时级预测能力。

个人贡献

我在团队中担任建模手,负责整体数学模型的构建与推导,包括 XGBoost 回归模型的特征工程设计、双通道预测框架的数学形式化、以及 SIR 传播模型的改进。同时负责问题二的编程实现,包括用户-博主互动强度矩阵的构建、时间衰减系数的计算、以及个性化通道与热度通道的融合预测。

核心公式选摘

用户-博主互动强度矩阵通过时间衰减加权与行为类型加权构建。时间衰减系数 wₜ = 1/(1+αΔt),其中 α=0.2 为衰减速率,Δt 为时间差(天)。行为权重向量 β = [0.2, 0.3, 0.3, 0.2] 分别对应观看、点赞、评论、关注。最终关注概率由个性化通道与热度通道加权融合,并叠加地理匹配修正项得到。

模型评价与改进

XGBoost 在问题一中表现优异(R²=0.89),但对长期时序依赖捕捉不足;问题四的热度指标存在马太效应。改进方案包括:引入 LSTM 增强时序建模能力、优化玻尔兹曼分布温度参数实现自适应调节、以及通过对数衰减因子抑制头部博主的过度曝光,使新晋博主曝光率提升 12%。