一、基于贝叶斯网络的回归树学习算法(论文文献综述)
孔小翠[1](2021)在《机器学习对延伸期降水集合预报的订正与释用分析》文中研究说明为了扩展气象业务中数值模式历史再预报资料在延伸期集合预报产品中的应用性,以及分析出延伸期集合预报各成员的预报技巧,本文使用欧洲中期天气预报中心(ECMWF)模式资料,主要针对华东地区(23°N~38.5°N,113°E~123°E)在夏季(6月~10月)过程中预报时效为30~45天的延伸期集合预报的月降水预报结果进行后处理技术订正与分析的研究。一、使用统计学方法分别对集合预报历史再预报与集合预报实时延伸期预报进行预报成员分析,根据离散度和均方根误差评估分析了集合预报成员以及集合平均预报的应用效果,结果表明:集合平均预报可增加与集合预报成员间的互相关性,为本文构建特征工程提供理论依据。二、采用历史偏差订正方法对延伸期降水集合预报资料与双线性插值实测降水资料进行对比,根据平均绝对误差和系统偏差评估了该订正方法,结果表明:本文中历史偏差订正效果在各预报时效中的误差没有得到较明显的改善。三、基于AdaBoost、Bagging、随机森林、梯度提升回归、贝叶斯岭回归5种机器学习回归预测模型后处理算法,展开了延伸期降水集合预报的订正分析。通过组合历史再预报资料中多个年份(1999年~2018年)的集合平均预报、集合中位数两种数据集构造特征工程进行训练,从预报时效、时间序列、空间分布、比率值四个检验角度分别对延伸期集合预报在订正前后的平均绝对误差、系统偏差、离散度的变化进行分析对比。结果表明:(1)在30~45天预报时效中,5种回归预测模型分别使用两种数据集构造特征工程进行订正后的平均绝对误差、系统偏差均优于集合预报订正前的结果,其中使用集合平均预报数据集构造特征工程的回归模型订正效果优于集合中位数预报,而且AdaBoost算法的订正效果最明显。(2)在时间序列趋势变化中,5种回归预测模型在6~10月的集合预报订正后的误差波动较小且趋于稳定,其中在7、8月份的回归订正后的平均绝对误差明显低于集合平均预报,订正效果更好。(3)在误差空间分布中(不包含台湾省及海域),5种回归预测模型订正后的平均绝对误差、系统偏差在华东地区北部(31°N~38.5°N,113°E~123°E)尤其是平原地区明显降低,其中AdaBoost算法、贝叶斯岭回归算法的订正效果更好。(4)在离散度与均方根误差的比率值R中,5种回归预测模型订正后,对应30~45天预报时效的R取值区间由[0.03,0.30]扩展到[0.65,0.91],且波动值稳定在0.75左右,即机器学习回归订正模型增强了集合预报扰动的合理性。(5)数值模式预报中历史再预报资料对延伸期预报具有提升预报技巧的作用。综合多个角度的分析与对比,本文研究中基于5种机器学习回归预测模型使用集合平均预报数据集构造特征工程对延伸期降水集合预报后处理的订正方法,其订正效果在平原地区的夏季(7、8月)表现更好。
赵晓静[2](2021)在《基于机器学习的情感计算模型超参数优化方法研究》文中认为深度学习有较强的学习能力,能够以监督学习这一算法自动地从数据中提取有用的特征表示。它以优异的表现在图像识别、语音识别、知识图谱、自然语言处理等领域中获得了广泛的应用,同样在情感计算领域,深度学习算法的应用获得了巨大成功。深度学习算法的实现涉及到调参这一重要环节,不同超参数会带来不同的结果。同样,目前在情感计算领域中调参方法只依赖于手工搜索和经验设置,尽管网格搜索和随机搜索是自动完成的超参数搜索的过程,但是网格搜索穷举式的特点会带来消耗时间和资源等新的问题,而随机搜索具有盲目性。因此,在这一领域存在调参困难的问题。为了改进传统调参方法存在的不足,本文提出超参数自动搜索方法,并将其应用于语音情感识别和抑郁自动检测两个情感计算领域的重要任务中,目的是解决情感计算领域中调参难这一问题并通过寻找最佳参数配置以提高这两个任务的识别率和预测正确率,本文的主要研究工作包括:第一,针对在情感计算领域提出的深度学习模型调参难这一问题,结合机器学习中回归树可视化分析的优势,提出超参数自动搜索算法。它的主要思想是首先为情感计算领域中的任务选择合适的算法模型;其次为模型中的超参数分阶段设置搜索空间;最后在搜索空间中进行由粗略到精细的搜索过程,随机组合一组超参数配置,对算法模型进行训练,得到验证损失和测试损失,将得到的结果输入到回归树中进行分析,聚焦搜索空间。第二,将提出的超参数自动搜索方法应用于语音情感识别任务。实验数据来源于IEMOCAP数据集,基于数据集提供的TXT文件对语音中情感的描述,从九类情感中选取高兴、生气、中性、悲伤四类情感构建此任务的数据。通过在本文构建的情感分类数据库中的实验结果表明,基于超参数自动搜索能够有效地找到一组最佳超参数配置,取得了较好的识别结果。第三,将提出的超参数自动搜索方法应用于抑郁症自动分析任务。实验数据来源于AVEC 2017数据集,实验结果表明,基于超参数自动搜索方法能够快速、有效地获得较好的预测结果。
任继红[3](2021)在《基于数据驱动的电力系统暂态稳定评估方法研究》文中研究指明暂态稳定评估是电力系统安全运行的关键。近年来,人工智能算法在电力系统暂态稳定评估中取得了良好成果,但仍处于理论阶段。主要是因为将其应用于实际工程时,会面临以下困难:1)暂态稳定数据具有高维性,数据在采集、传输过程中会受到相量测量单元中噪声的干扰;2)暂态失稳样本数目远小于稳定样本数目,导致模型对失稳样本学习不足,且两类样本误分类代价不同;3)现阶段的电力系统暂态稳定分类技术均已获得良好的评估准确性,但关于暂态稳定裕度的定量描述的研究很少。而暂态稳定裕度预测更有利于系统安全的预防和控制。论文对以上问题进行了深入的研究,主要的工作和成果有:(1)提出一种基于极限梯度提升树(e Xtreme Gradient Boosting,XGBoost)和实体嵌入网络的电力系统暂态稳定评估方法。所提方法使用XGBoost对原始特征进行快速地编码,编码后的特征矩阵维数较少,能够有效克服电力数据的维数灾难问题,加速实体嵌入网络的训练;实体嵌入将特征自身属性以及特征间关系映射到欧几里得空间,使编码后的特征空间能够进行可视化分析。另外,由于XGBoost转换后的特征是类别特征,具有离散性,因此噪声给模型带来的影响较小。(2)提出一种新型的XGBoost算法,并将其与双XGBoost回归树进行集成来实现暂态稳定的评估和裕度预测。在第一阶段,引入了权重系数对XGBoost进行改进,实现了对电力系统暂态稳定的评估。其中,引入权重系数的目的是克服模型在训练过程中因电力系统暂态稳定数据中稳定样本和失稳样本在数量上的不平衡引起的对失稳样本信息学习不完全的问题。在第二阶段,为了给后续的预防和紧急控制提供更有利的参考,采用了双XGBoost回归树分别建立了两类样本的裕度预测模型,对第一阶段新型的XGBoost模型确定为稳定和失稳的样本进一步评估,从而构建两类样本的精细化裕度预测模型。(3)提出一种基于贝叶斯优化的Light GBM(Light Gradient Boosting Machine)算法来实现暂态稳定裕度预测。Light GBM算法通过嵌入法对原始特征集中不同特征的相对重要度进行排序,筛选出对预测结果重要的特征,在保证较高的预测精度下减少了输入特征的维数,从而提高模型的训练速度。在选择参数过程中,引入贝叶斯优化算法对Light GBM进行参数寻优,相比于以往的网格搜索法和随机搜索法,该方法具有耗时短、寻优效果好的优点;在数据处理过程中,使用直方图算法离散化原始特征,使得模型的鲁棒性更好,抗噪能力更强。实验通过对均匀噪声和随机噪声的模拟,来测试模型的抗噪性能,同时从数据采集时间、模型响应时间和模型预测时间三个方面综合分析了模型的计算成本。通过IEEE标准系统的仿真结果表明,论文所提的三种方法可以作为传统的暂态稳定分析技术的补充,可以给电力系统的运行、调度、控制以及决策提供有利参考。
魏鑫[4](2020)在《基于车牌识别数据修复的个体出行路径链重构研究》文中提出近年来,随着城市车辆保有量的不断增长,交通拥堵问题日益严峻,极大影响了城市个体车辆的日常出行。个体出行路径链中蕴藏着丰富的交通流微观参数,利用出行路径链进行数据聚类、挖掘与碰撞分析,系统、全面地评估城市交通网络中车辆的出行规律和路径选择行为,为协调路网拥堵分配,提高道路车辆通行效率提供有力支撑。因此本文研究以个体出行链重构研究为中心,同时探究交通流修复、路径行程时间估计领域助力出行特征构造分析。研究基于车牌识别数据的数据预处理、数据质量评估及数据时空相关性分析。介绍智能卡口设备基本工作原理及常用布设策略,阐述车牌识别数据的特点并基于该类数据进行预处理及质量分析,另外还介绍了路段层面上的行程时间样本筛选提取和个体出行路径链组合提取的方法。也同时描述了隐藏的时间和空间关联性,为后续研究提供可靠的支撑。研究基于图循环卷积生成对抗网络的交通流量修复模型。以城市路网高清智能卡口监测的路口过车流量数据缺失为研究背景进行建模。首先构建随机缺失、非随机缺失、组合缺失三种缺失模式交通流数据集,随后利用Tensorflow深度学习框架搭建图循环卷积生成对抗网络(Graph Recurrence Convolution Generation Adversarial Network,GRCGAN),网络框架优化了生成对抗网络中的时空特征提取器单元,使之有效提取路网交叉口的时空相关性,最后将GRCGAN与BGCP(Bayesian Gaussian CP decomposition)、Ha LRTC(High Accuracy Low Rank Tensor Completion)的张量分解算法及GAIN(Generative Adversarial Imputation Nets)算法模型进行对比,结果表明本文提出的修复模型性能更为优越,为路径链重构实验中所计算的路段交通密度提供基础。研究城市路网下路径行程时间分布估计。首先提出使用贝叶斯信息准则确定交通状态类别数,为挖掘上下游路段行程时间的空间关联性,采用GMM聚类进行交通状态识别;随后依据马尔科夫链理论,计算初始概率及状态转移矩阵对路段行程时间动态趋势进行表示,同时计算链连接概率串联各上下游路段信息;最后计算路网中各路径交通状态下的条件路径概率,统计其各路段的行程时间分布,将各分布卷积计算的结果以条件路径概率加权估计得最终的路径行程时间分布,实验结果表明本文改进的条件路径概率加权的估计方法效果更准确、鲁棒。研究基于梯度提升决策树算法的城市个体出行路径链重构算法。根据车牌号码匹配目标车辆并以时间排序提取视频检测器获得的路径链,并结合交叉口邻接矩阵、路段行程时间及路径行程时间分布进行路径链初次分离,然后,依据车辆出行特征、修复的交通流、路径行程时间等参数提取影响路径选择的关键特征,并基于选择的特征提出了基于梯度提升决策树的局部丢失路径链重构算法,最后,以某市南明区实际视频车牌识别数据为例,根据重构算法准确性和计算效率验证了文中算法与传统算法及机器学习算法。结果表明,本文算法的重构准确率达到91%,对比传统多目标优化及机器学习算法,梯度提升决策树算法在车辆路径链重构方面有较大优势。
刘佳晨[5](2020)在《基于GBDT算法的区域外卖订单需求预测》文中提出随着“互联网+”的不断发展,人们的多种生活方式也随之发生了巨大的改变,“懒人经济”成为了一种经济现象。互联网与餐饮业的结合使点外卖变成了人们的一种主流生活方式。通过对区域内未发生的外卖订单需求进行预测,在订单未发生前完成骑手调度,促使外卖平台配送系统智能调度成为现实,能够有效提升外卖平台的配送时效,提高外卖平台的竞争力。针对上述问题,本文提出了一种基于GBDT算法的区域外卖订单需求预测模型,模型能够对各商圈区域未来一小时内订单需求进行有效预测,为外卖平台的配送系统智能调度提供依据。论文的主要内容包括以下几个部分:(1)介绍了研究所涉及的理论知识。包括需求预测、特征选择的相关概念、步骤等,并对GBDT(梯度提升决策树,Gradient Boosting Decision Tree)算法理论进行了详细阐述。(2)区域外卖订单需求预测模型的构建。首先对原始数据进行数据预处理,并使用递归特征消除法与交叉验证相结合的方式对区域外卖订单需求预测相关的特征进行选择,为后续模型的训练进行数据准备。为了提高模型的表现,参数的调整十分必要,人工调参工作量大且主观性强、容易有遗漏,明显不是最佳选择,为此引入贝叶斯算法进行GBDT算法模型的调参优化,最终基于调参优化后的GBDT算法构建了区域外卖订单需求预测模型。(3)使用某外卖平台大连地区订单数据对预测模型进行验证,并与BP神经网络,SVR算法进行预测结果对比,经实验证明,GBDT算法的预测结果拟合效果更好,能够对外卖平台区域订单需求进行有效预测。
资艳玲[6](2020)在《基于特征提取与贝叶斯优化的电力负荷组合预测研究》文中指出电力负荷预测在电力系统规划和发展的过程中承担了十分重要的角色,准确的预测有助于降低成本并优化决策。合理的进行负荷预测对电力系统规划及其重要,是电力事业持续、稳定和健康发展的必然要求,具有显着的经济和社会效益。天气、经济条件等各种不同因素均会对电力负荷的波动产生一定的影响,导致负荷预测存在较强的不稳定性。近些年,学者们对于电力负荷预测方法的研究逐渐深入,众多负荷预测的方法相继被提出,但是使用单一模型进行负荷预测时普遍存在的问题是单一模型无法充分展现负荷的变化规律,对于不同的数据集不能保证预测精度的稳定性,因此负荷组合预测模型逐渐受到人们的关注。本文首先介绍了电力负荷预测与组合预测的概念与研究背景,论述了组合预测的意义和基本原理,并详细介绍了随机森林、分位数回归森林、梯度提升回归树、分位数回归梯度提升、XGBoost和LightGBM等常用的机器学习回归算法的基本原理与算法流程,以及简单平均、基于模型性能的加权平均、普通最小二乘预测组合、最小绝对偏差预测组合等组合方法的基本原理。此外,介绍了两种模型评估采用的评价指标:MAPE与RMSE。由于单一模型难以对所有数据集都得到最佳的预测精度,为了解决这一局限性,进一步提高短期电力负荷预测的精确度与稳定性,本文构建了一种基于机器学习算法的优化组合预测模型:基于特征提取-贝叶斯优化(Feature extractionBayesian optimization,FE-BO)组合预测模型。该组合预测模型主要包括以下四个步骤:数据预处理、基于模型XGBoost的特征提取、单项模型训练、模型组合。首先对数据进行归一化和缺失值处理。之后,基于XGBoost模型得出特征重要性分数并进行排序,计算出的特征重要性得分用于输出一个特征子集,该子集将除去多余的特征。最后,使用贝叶斯优化法对模型的超参数进行调参,并使用选定的特征和优化的参数构建最终组合模型。本文基于国内A地区的2019年1月至10月的实际电力负荷数据集与天气数据集,应用新提出的FE-BO组合预测模型进行实证分析。首先把数据集以月份为单位分为十一个数据集,然后分别采用随机森林、分位数回归森林、梯度提升回归树、分位数梯度提升回归树、XGBoost和LightGBM六种单项预测模型对十一个电力负荷数据集分别进行最后24小时负荷的点预测,再通过简单平均、基于MAPE的加权平均、基于RMSE的加权平均、普通最小二乘预测组合、最小绝对偏差预测组合这六种组合方法对单项模型进行组合预测,通过误差评价指标MAPE与RMSE选出精度较高的基准模型,分别同特征提取与贝叶斯超参数优化后的FE-BO组合预测模型的预测精度进行比较。通过实证分析,与未经优化的原始模型以及未经优化的组合预测模型相比较,本文提出的FE-BO组合预测模型在预测精度和稳定性上都具有较强优势,在短期电力负荷预测中有较好的预测效果。
李艳宇[7](2020)在《湿法烟气脱硫过程建模、优化与预测》文中指出湿法石灰石-石膏烟气脱硫工艺以石灰石为脱硫原料,以石膏为脱硫产物。这样在达到脱硫的目的同时还能将石膏再利用为企业带来额外价值。湿法石灰石-石膏烟气脱硫方法相比于其他脱硫工艺来说有着技术成熟、脱硫效果显着和再利用率高的特点,是目前工业中主要使用的脱硫工艺。湿法烟气脱硫是一个多变量、耦合性强、非线性的复杂过程。脱硫效率是衡量脱硫工艺的关键,而脱硫效率影响因素众多并且有些因素之间相互制约。协调每个因素之间动态平衡提高脱硫效率对于脱硫系统至关重要。对脱硫系统进行建模、优化并对脱硫效率进行预测具有一定的实际意义。首先本文对湿法烟气脱硫的工艺过程进行阐述,从化学和动力学等角度分析了脱硫效率、脱硫浆液p H值和出口烟气温度的影响因素为后文的建模和优化做准备。对火力发电厂脱硫系统的实际运行数据进行预处理,删除其中存在的异常值。通过灰度关联分析定量的分析了脱硫浆液p H值和出口烟气温度与其影响因素之间的关联程度做特征选择。分别采用梯度提升回归树(GBDT)、轻量梯度提升学习机(Light GBM)和极端梯度提升学习机(XGBoost)对脱硫浆液p H值和出口烟气温度进行建模。使用均方误差等评价指标对三种算法的性能进行评估选择出性能最好的Light GBM算法用于接下来的研究。其次本文对脱硫效率、脱硫浆液p H值和出口烟气温度进行深入的分析,发现提高脱硫浆液p H值会提高脱硫效率但是会降低出口烟气温度。为了获得较高的脱硫效率本文提出了以最大化脱硫浆液p H值和出口烟气温度为目标的多目标优化问题。通过粒子群优化算法(MOPSO)、第二代非支配排序的遗传算法(NSGA-II)和第三代非支配排序的遗传算法(NSGA-Ⅲ)三种算法寻找多目标优化问题对应的最优解集。通过超立方体(HV)指标对优化结果进行评价,结果表明NSGA-III算法有很好收敛性和均匀性,因此保存NSGA-III算法的优化结果用于脱硫效率的预测。最后本文采用模拟退火算法和贝叶斯优化算法分别对Light GBM算法和XGBoost算法进行参数优化,结果表明基于贝叶斯优化的Light GBM算法综合性能更好。以贝叶斯优化的Light GBM算法建立脱硫效率预测模型,将NSGA-III算法优化的最优解和原始数据带入预测模型作对比。结果表明,优化后的数据能够对脱硫效率有所提升。因此能够为脱硫系统的高效运行提供参考。
李鑫[8](2020)在《基于数据挖掘的电信客户流失预警研究》文中认为计算机、通信技术的飞速发展,加速了互联网和通讯网的融合,由此带来的是在线社交网络日益成为人们沟通交流、交友等的重要平台,人们对于通信服务的需求也迅速攀升,这给电信行业带来了一系列的机遇。同时又由于市场的饱和、行业服务趋于同质化等因素的影响加剧了电信企业之间的竞争,客户更是成为了稀缺资源,增加新客户变得愈加困难,所以如何稳定住现有的客户不流仍然是各大电信企业关注的焦点问题。而且增加新的客户所花费的成本高于保留老客户的成本,老客户的流失会给企业带来许多损失,所以研究预测客户的流失模型是有必要且有意义的。国内外的专家学者也已经对此进行了大量的研究并取得了许多有价值、可供参考的成果。同时,数据挖掘技术的发展为企业探究预测客户流失模型提供了大量的理论方法支持。本文先对数据挖掘这一领域做了概述,了解了相关的概念、流程和应用功能。鉴于电信客户流失问题本质上是一个二分类问题,所以将应用数据挖掘中的分类方法来解决,在众多分类方法中,选择了运用机器学习方法来解决。因此,在第三章对第四章进行实证分析时所用到的机器学习理论逐一做了介绍,包括先研究了建模前进行数据准备的数据预处理方法,接下来着重探讨和总结归纳了机器学习中的单一模型包括k-近邻模型、朴素贝叶斯模型、CART决策树模型、Logistic回归模型以及集成学习模型包括Adaboost模型、梯度提升树模型和随机森林模型主要在解决二分类问题时背后的数学、统计学等原理,总结归纳了上述算法的实现步骤以及在实践应用中的优缺点等。在理解了理论方法的适用范围及其优缺点后,在真实的数据集上进行实证研究。在建立模型前,先具体了解了数据的基本信息包括统计信息、缺失率等,然后在此基础上进行了数据预处理,包括部分特征变量的删除、缺失值的填充,分类型变量的哑编码等,最终通过梯度提升树算法选择出了对模型预测结果影响最重要的21个特征变量,作为模型的最终输入。将数据集划分为训练集和测试集后,通过训练集对上述各个单一学习模型和集成学习模型进行训练。用AUC值来作为模型性能的评估指标,并以此为根据对模型做出初步选择,同时对比各个模型性能的优劣,发现单一模型的AUC值均低于集成学习模型的AUC值,集成学习模型当中梯度提升树模型的表现最好,因此将梯度提升树作为最终的预测模型。结合带交叉验证的网格搜索法和交叉验证法通过调参来优化模型,最终获得了表现较优的模型。最后文章在结尾处对全文做了总结与展望。
姜雪冰[9](2020)在《基于面部多指标的疲劳驾驶预警系统研制》文中研究说明根据中国国家统计局的统计数据,在过去5年里,中国共发生1029733起交通事故,造成304671人死亡,直接经济损失达50亿29400万元。其中疲劳驾驶引起的交通事故占交通事故总数的20%,占公路交通事故的30%以上。因此,为了进一步降低交通事故风险,保障公共交通安全,研制一个快速、可靠和高性能的疲劳驾驶预警系统具有重要意义。本文的研究目标是研制一款基于贝叶斯网络的面部多指标融合的高性能疲劳驾驶预警系统,并在满足实时性、准确性和健壮性等设计要求下,完成了系统硬件平台的搭建以及软件流程的开发。详细工作内容如下:(1)提取面部疲劳多指标的第一步便是人脸检测技术。为了解决图像中光照以及人脸姿态变化对特征提取的影响,本文采用了基于HOG特征的人脸检测技术。该算法主要包括图像预处理,计算图像像素梯度,划分单元格构建梯度直方图,合并局部梯度直方图并归一化四个步骤。然后用构建的大量人脸HOG特征向量空间作为样本训练SVM人脸检测分类器。(2)人脸检测工作完成后,本文提出了ERT面部关键特征点定位与EPn P点头频率估计相结合的面部多特征提取方法,并设计了基于粒子滤波器的虹膜跟踪算法,采用眼部高宽比来提取眼部状态信息,计算PERCLOS值、ACES、AOL、BF多项疲劳指标。通过动态视频序列信息检测并区分打哈欠与正常说笑的差异性,提高了哈欠检测准确率。同时,基于EPn P算法实时估计驾驶员头部运动状态,计算点头频率来进一步推断其疲劳程度。根据上面提取的面部多特征对疲劳驾驶的推断结果建立条件概率表,并融合驾驶员睡眠质量、身体状况、昼夜节律以及驾驶环境等先验知识,构建贝叶斯网络结构并进行参数学习,成功得到多指标融合疲劳驾驶判决模型。(3)最后为了测试系统疲劳检测的准确性以及实时性,本文搭建了基于Jetson TX2图像处理单元的硬件平台并在Ubuntu系统上完成了软件开发工作。通过在面部疲劳特征数据库以及活体人脸实验两种方法进行验证,实验结果显着。
刘晓晨[10](2020)在《基于集成策略的个人信用评估模型》文中研究指明互联网的快速发展带动了线上经济的活跃,第三方支付的不断更新,各种信贷产品层出不穷,信用问题越发突出.为了我国信贷经济的健康发展,2018年底至2019年初,中国人民银行的二代征信系统进行了试运行.新的征信系统增加了非银行机构的业务,并扩大了数据收集的渠道,目的是运用先进的技术提供更高效、更精准的服务,但该系统尚未成熟,仍有很大的完善空间,尤其是在数据挖掘等技术层面.本文旨在通过对比分析与实证分析相结合,对现有的机器学习算法做进一步的研究,并采用集成策略优化模型,希望能够提高对个人信用违约的识别与规避.集成策略的主要思想是在优化后的基模型的基础上,对这些基模型进行优化整合从而构建性能较稳定、精确度较高的模型.本文模型的构建思路:基于充分的数据清洗,对模型进行贝叶斯超参数优化,根据模型的精度、预测能力和分类能力等方面,对不同类型的模型进行比较并选择最优模型;在此基础上对不同类型的模型进行三种进一步的集成,即Stacking、Blending、Voting集成;最后,从不同的模型评估角度(精确度、分类能力、泛化能力等)分析集成模型的鲁棒性.对台湾信贷数据进行的实证分析,即对比了逻辑回归、基于伯努利的贝叶斯模型、SVM(支持向量机)、随机森林、极端树模型、Ada Boost、GBDT、XGBoost,并在此基础上对这些模型采用了Stacking、Voting、Blending三种策略构建高效的集成模型,结果表明:1、串行集成的方法(GBDT)与异质集成策略(Stacking、Blending、Voting)达到的效果相近;2、相对复杂的Stacking模型预测能力却没有相对简单的GBDT模型优,说明模型的复杂程度与模型的精度不成正比;3、模型结构相对简单的Blending、Voting的集成策略最后得到的模型精度达到81%,模型的AUC值达到0.78以上,模型的分类能力指标KS值、Kappa值分别为0.315、0.373,显着优于其他集成模型的结果.
二、基于贝叶斯网络的回归树学习算法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于贝叶斯网络的回归树学习算法(论文提纲范文)
(1)机器学习对延伸期降水集合预报的订正与释用分析(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 数值模式预报介绍 |
1.2.2 集合预报介绍 |
1.2.3 延伸期预报的研究进展 |
1.2.4 机器学习方法的研究进展 |
1.3 论文研究内容与章节安排 |
1.3.1 本文主要创新 |
1.3.2 研究框架 |
1.3.3 章节安排 |
第二章 资料与方法 |
2.1 研究区域 |
2.2 资料 |
2.2.1 模式预报资料 |
2.2.2 实测降水资料 |
2.3 方法 |
2.3.1 集合平均预报 |
2.3.2 插值方法 |
2.3.3 检验方法 |
2.3.4 机器学习回归方法 |
2.4 本章小结 |
第三章 延伸期降水集合预报的检验评估 |
3.1 对延伸期月降水的集合预报效果评估 |
3.1.1 离散度--均方根误差关系 |
3.1.2 互相关性分析 |
3.2 历史偏差订正方法与检验 |
3.2.1 历史偏差订正方法 |
3.2.2 历史偏差订正结果分析 |
3.2.3 历史偏差订正的时间序列分析 |
3.3 本章小结 |
第四章 基于机器学习的延伸期降水集合预报订正模型 |
4.1 实验特征工程构造 |
4.2 5种回归模型的原理介绍与构造 |
4.2.1 AdaBoost算法 |
4.2.2 Bagging装袋算法 |
4.2.3 随机森林算法 |
4.2.4 梯度提升回归树 |
4.2.5 贝叶斯岭回归算法 |
4.3 回归模型订正结果与时间序列分析 |
4.3.1 订正结果与分析 |
4.3.2 时间序列分布与分析 |
4.4 综合各订正方法的集合扰动分析 |
4.5 实验结果空间分布分析 |
4.5.1 平均绝对误差分布 |
4.5.2 系统偏差分布 |
4.6 月降水空间分布 |
4.7 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
致谢 |
参考文献 |
作者简介 |
(2)基于机器学习的情感计算模型超参数优化方法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 选题背景与意义 |
1.1.1 选题背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.3 本文主要研究内容及组织结构 |
1.4 本章小结 |
第二章 相关基础理论知识 |
2.1 任务介绍 |
2.1.1 语音情感识别(Speech Emotion Recognition,SER) |
2.1.2 抑郁症自动分析 |
2.2 情感计算相关数据库介绍 |
2.2.1 IEMOCAP数据集 |
2.2.2 AVEC2017 数据集 |
2.3 常用深度学习模型 |
2.4 梅尔谱图特征 |
2.5 评价标准 |
2.5.1 语言情感识别实验评价标准 |
2.5.2 抑郁症自动分析实验评价标准 |
2.6 本章小结 |
第三章 超参数自动化优化方法 |
3.1 超参数简介 |
3.1.1 运行超参数 |
3.1.2 结构化超参数 |
3.2 典型超参数优化方法 |
3.2.1 网格搜索(Grid Search,GS) |
3.2.2 随机搜索(Random Search,RS) |
3.2.3 贝叶斯优化(Bayesian Optimization,BO) |
3.3 提出的超参数自动搜索方法 |
3.4 本章小结 |
第四章 基于超参数自动搜索的语音情感识别 |
4.1 算法描述 |
4.1.1 自注意力模型 |
4.1.2 Non-Local算法 |
4.2 实验设置 |
4.3 实验结果与分析 |
第五章 基于超参数自动搜索的抑郁症自动分析 |
5.1 算法描述 |
5.1.1 全局池化层与残差连接 |
5.1.2 回归树 |
5.2 实验设置 |
5.3 实验结果与分析 |
第六章 总结与展望 |
6.1 本文工作总结 |
6.2 未来工作展望 |
参考文献 |
致谢 |
(3)基于数据驱动的电力系统暂态稳定评估方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题的背景和意义 |
1.2 国内外研究现状 |
1.3 主要研究内容及组织结构 |
第2章 基于XGBoost-EE方法的电力系统暂态稳定评估 |
2.1 算法介绍 |
2.1.1 XGBoost算法 |
2.1.2 实体嵌入网络 |
2.2 TSA模型 |
2.2.1 XGBoost-EE方法 |
2.2.2 输入特征选择 |
2.2.3 模型的输出 |
2.2.4 实验评价指标 |
2.3 算例分析 |
2.3.1 数据集生成 |
2.3.2 模型参数及性能评估 |
2.4 模型的可视化 |
2.4.1 XGBoost转换特征可视化 |
2.4.2 实体嵌入可视化 |
2.5 模型抗噪性能分析 |
2.6 本章小结 |
第3章 基于改进XGBoost的暂态稳定裕度精细化预测 |
3.1 模型介绍 |
3.1.1 改进的XGBoost算法 |
3.1.2 离线训练和在线评估 |
3.1.3 输入与输出 |
3.1.4 评价指标 |
3.2 算例分析 |
3.2.1 数据集生成 |
3.2.2 修改损失函数对模型的影响 |
3.2.3 算法对比 |
3.2.4 更新方法对比 |
3.3 所提方案对模型的影响 |
3.4 本章小结 |
第4章 基于BO-LightGBM算法的暂态稳定裕度预测 |
4.1 算法介绍 |
4.1.1 LightGBM算法 |
4.1.2 贝叶斯优化算法 |
4.2 裕度预测模型 |
4.2.1 模型构建 |
4.2.2 模型输入和输出 |
4.3 IEEE-39节点系统 |
4.3.1 样本生成 |
4.3.2 训练过程及结果分析 |
4.3.3 特征属性的重要性 |
4.4 修改的IEEE-68 节点系统 |
4.4.1 样本集构造 |
4.4.2 训练过程及结果分析 |
4.5 噪声实验 |
4.6 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文 |
致谢 |
(4)基于车牌识别数据修复的个体出行路径链重构研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状分析 |
1.2.1 交通数据修复研究现状 |
1.2.2 行程时间估计研究现状 |
1.2.3 路径链重构算法研究现状 |
1.3 研究内容 |
1.4 技术路线及章节安排 |
1.4.1 技术路线 |
1.4.2 章节安排 |
1.5 本章小结 |
第二章 车牌识别数据预处理及质量评估 |
2.1 高清智能卡口设备 |
2.1.1 工作原理 |
2.1.2 设备点位布设 |
2.2 车牌识别数据预处理 |
2.2.1 车牌识别数据形式 |
2.2.2 数据预处理方法 |
2.2.3 数据质量分析 |
2.3 交通流时空相关性分析 |
2.3.1 相关性分析 |
2.3.2 交通流时间相关性 |
2.3.3 交通流空间相关性 |
2.4 本章小结 |
第三章 交通流缺失数据修复 |
3.1 自编码器与生成对抗网络模型 |
3.1.1 自编码器理论 |
3.1.2 生成对抗网络模型理论 |
3.2 时空模式表示学习 |
3.2.1 交通流空间模式表示 |
3.2.2 交通流时间模式表示 |
3.3 基于GAN网络的交通流缺失修复模型 |
3.3.1 交通流数据缺失模式 |
3.3.2 图循环卷积生成对抗网络的交通数据修复建模 |
3.4 应用实例 |
3.4.1 实验数据准备 |
3.4.2 评价指标 |
3.4.3 实验环境及模型参数选择 |
3.4.4 结果分析 |
3.5 本章小结 |
第四章 路径行程时间估计 |
4.1 路径行程时间数据采集 |
4.2 基于上下游路段行程时间的交通状态识别 |
4.2.1 交通状态识别过程 |
4.2.2 高斯混合聚类模型理论 |
4.3 路径行程时间估计算法 |
4.3.1 马尔科夫链交通状态识别 |
4.3.2 行程时间卷积理论 |
4.3.3 马尔科夫链路径行程时间估计 |
4.4 应用实例 |
4.4.1 实验数据 |
4.4.2 评价指标 |
4.4.3 实验流程 |
4.4.4 结果分析 |
4.5 本章小结 |
第五章 路径链重构 |
5.1 路径链重构问题定义 |
5.2 路径链特征提取 |
5.2.1 个体出行特征分析 |
5.2.2 个体出行特征与驾驶路径关联性 |
5.3 路径链重构模型 |
5.4 应用实例 |
5.4.1 实验数据 |
5.4.2 GBDT模型超参数优化 |
5.4.3 结果分析 |
5.5 本章小结 |
总结与展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附件 |
(5)基于GBDT算法的区域外卖订单需求预测(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 选题背景 |
1.2 研究意义 |
1.3 国内外研究综述 |
1.3.1 订单需求预测研究现状 |
1.3.2 GBDT算法应用研究现状 |
1.3.3 文献综述简析 |
1.4 论文组织结构 |
2 区域外卖订单需求预测相关理论概述 |
2.1 需求预测相关理论 |
2.1.1 需求预测的涵义及特点 |
2.1.2 需求预测的常用方法 |
2.1.3 需求预测的一般步骤 |
2.2 特征选择 |
2.2.1 特征选择的定义及作用 |
2.2.2 特征选择的方法 |
2.2.3 特征选择的步骤 |
2.3 GBDT算法研究 |
2.3.1 决策树算法 |
2.3.2 提升树模型 |
2.3.3 Gradient Boosting算法 |
2.4 本章小结 |
3 区域外卖订单需求预测模型的构建 |
3.1 区域外卖订单需求预测模型设计 |
3.2 数据预处理 |
3.2.1 数据来源 |
3.2.2 数据预处理 |
3.3 区域外卖订单需求预测的特征选择 |
3.3.1 特征分析 |
3.3.2 特征选择 |
3.4 GBDT模型优化 |
3.4.1 贝叶斯优化算法 |
3.4.2 优化的GBDT算法 |
3.5 本章小结 |
4 GBDT算法模型在区域外卖订单需求预测中的应用 |
4.1 实验环境及数据集 |
4.2 模型评价指标 |
4.3 特征选择结果 |
4.4 模型参数设置与模型训练 |
4.4.1 算法模型参数设置及分析 |
4.4.2 参数取值与分析 |
4.4.3 模型评估与结果对比 |
4.5 本章小结 |
总结与展望 |
参考文献 |
附录A 部分程序代码 |
致谢 |
作者简历及攻读硕士学位期间的科研成果 |
(6)基于特征提取与贝叶斯优化的电力负荷组合预测研究(论文提纲范文)
摘要 |
Abstract |
1.绪论 |
1.1 研究背景及意义 |
1.2 组合预测理论的研究现状 |
1.3 本文的主要工作与创新 |
1.4 本文的组织结构 |
2.电力负荷预测模型理论介绍 |
2.1 单项预测模型 |
2.1.1 分类回归树 |
2.1.2 随机森林 |
2.1.3 分位数回归森林 |
2.1.4 梯度提升回归树 |
2.1.5 分位数回归梯度提升 |
2.1.6 XGBoost |
2.1.7 Light GBM |
2.2 组合预测模型 |
2.2.1 简单平均 |
2.2.2 基于模型性能的加权平均 |
2.2.3 普通最小二乘与最小偏差加权平均 |
2.3 模型评估 |
2.4 本章小结 |
3.优化的组合预测模型 |
3.1 基于XGBoost模型的多维特征提取方法 |
3.2 基于贝叶斯的超参数优化模型 |
3.3 优化的组合预测模型 |
3.4 本章小结 |
4.FE-BO组合模型电力负荷预测 |
4.1 数据准备 |
4.1.1 电力负荷数据来源及预处理 |
4.1.2 电力负荷特性分析 |
4.1.3 电力负荷预测特征选择 |
4.2 特征提取 |
4.3 单项模型预测 |
4.4 组合模型预测 |
4.4.1 FE-BO组合模型与基准模型的比较 |
4.4.2 FE-BO组合模型与未优化组合模型的比较 |
4.5 本章小结 |
5.结论与展望 |
5.1 本文主要结论 |
5.2 下一步工作 |
参考文献 |
致谢 |
(7)湿法烟气脱硫过程建模、优化与预测(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景以及研究意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 本文研究内容 |
1.4 论文章节安排 |
第2章 石灰石-石膏烟气脱硫工艺流程分析 |
2.1 石灰石-石膏烟气脱硫工艺流程 |
2.2 脱硫效率及其影响因素分析 |
2.3 脱硫浆液pH值和出口烟气温度影响因素分析 |
2.4 本章小结 |
第3章 脱硫浆液pH值和出口烟气温度建模 |
3.1 数据预处理 |
3.1.1 数据清洗 |
3.1.2 灰度关联分析 |
3.2 梯度提升决策树算法 |
3.3 轻量梯度提升学习机 |
3.4 极端梯度提升学习机 |
3.5 实验结果分析 |
3.6 本章小结 |
第4章 脱硫浆液pH值和出口烟气温度多目标优化 |
4.1 烟气脱硫过程中存在的多目标优化问题 |
4.2 多目标优化算法 |
4.2.1 多目标优化问题介绍 |
4.2.2 多目标粒子群算法 |
4.2.3 NSGA-Ⅱ算法 |
4.2.4 NSGA-Ⅲ算法 |
4.3 多目标优化问题仿真结果与分析 |
4.4 本章小结 |
第5章 脱硫效率的预测 |
5.1 超参数优化算法 |
5.1.1 Light GBM和XGBoost算法参数分析 |
5.1.2 贝叶斯优化算法 |
5.1.3 模拟退火算法 |
5.1.4 Light GBM和XGBoost算法参数优化 |
5.2 基于BO-Light GBM对脱硫效率预测及分析 |
5.3 本章小结 |
总结与展望 |
参考文献 |
攻读硕士学位期间所发表的学术论文 |
致谢 |
(8)基于数据挖掘的电信客户流失预警研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究成果 |
1.2.1 国内研究成果 |
1.2.2 国外研究成果 |
1.3 论文研究内容及布局 |
第2章 数据挖掘概述 |
2.1 数据挖掘的基本概念 |
2.2 数据挖掘的流程 |
2.3 数据挖掘的应用 |
第3章 相关理论技术 |
3.1 数据预处理 |
3.2 k-近邻法 |
3.2.1 k-近邻法的三要素 |
3.2.2 k-近邻算法实现 |
3.2.3 小结 |
3.3 朴素贝叶斯法 |
3.3.1 朴素贝叶斯模型 |
3.3.2 朴素贝叶斯算法参数估计 |
3.3.3 朴素贝叶斯算法流程 |
3.3.4 小结 |
3.4 CART决策树法 |
3.4.1 CART决策树生成 |
3.4.2 CART决策树剪枝 |
3.4.3 小结 |
3.5 二项Logistic回归模型 |
3.6 Adaboost模型 |
3.6.1 Adaboost算法思路 |
3.6.2 损失函数优化 |
3.6.3 算法流程及正则化 |
3.6.4 小结 |
3.7 梯度提升树模型 |
3.7.1 GBDT的负梯度拟合 |
3.7.2 二元GBDT分类算法 |
3.7.3 小结 |
3.8 Bagging和随机森林 |
3.8.1 Bagging |
3.8.2 随机森林 |
3.9 模型评估 |
3.9.1 二分类混淆矩阵 |
3.9.2 ROC曲线和AUC值 |
3.9.3 交叉验证 |
第4章 流失预测模型的选择与建立 |
4.1 数据介绍与预处理 |
4.1.1 数据介绍 |
4.1.2 数据预处理 |
4.2 流失预测模型的选择与建立 |
4.2.1 流失预测模型的选择 |
4.2.2 流失预测模型的建立 |
4.3 小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
(9)基于面部多指标的疲劳驾驶预警系统研制(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 课题研究背景和意义 |
1.2 疲劳驾驶预警系统国内外研究现状 |
1.2.1 基于驾驶员生理参数的疲劳检测方法 |
1.2.2 基于驾驶员面部特征的疲劳检测方法 |
1.2.3 基于行车状态的疲劳驾驶检测方法 |
1.2.4 基于多信息融合的疲劳检测方法 |
1.2.5 疲劳驾驶预警技术研究现状分析 |
1.3 人脸检测关键技术综述 |
1.3.1 基于特征的人脸检测方法 |
1.3.2 基于图像的人脸检测方法 |
1.4 课题主要内容安排 |
第2章 面部关键特征提取与头部姿态估计 |
2.1 基于方向梯度直方图的人脸检测器 |
2.2 基于级联回归树的人脸关键特征定位 |
2.3 基于粒子滤波器的人眼虹膜跟踪理论分析 |
2.4 基于PnP算法的姿态估计算法 |
2.5 本章小结 |
第3章 基于面部多特征的疲劳检测 |
3.1 眼部虹膜跟踪以及疲劳多指标提取 |
3.1.1 粒子滤波器设计 |
3.1.2 眼部开合度检测 |
3.1.3 眼部疲劳特征计算 |
3.1.4 实验与分析 |
3.2 基于打哈欠的疲劳检测分析 |
3.2.1 哈欠特征提取 |
3.2.2 实验与分析 |
3.3 基于点头频率的疲劳检测算法 |
3.3.1 头部姿态估计与点头频率特征提取 |
3.3.2 实验与分析 |
3.4 本章小结 |
第4章 基于贝叶斯网络的疲劳驾驶判决模型 |
4.1 基于贝叶斯网络的信息融合理论 |
4.1.1 贝叶斯网络模型 |
4.1.2 多变量联合概率分布计算 |
4.1.3 贝叶斯网络分类器的构建 |
4.2 面部疲劳多指标特征层融合分析 |
4.3 基于贝叶斯网络的疲劳检测建模 |
4.4 贝叶斯网络参数学习与模式推断 |
4.5 本章小结 |
第5章 疲劳驾驶预警系统设计与实验 |
5.1 系统的总体设计方案 |
5.2 系统软硬件设计 |
5.2.1 硬件平台搭建 |
5.2.2 软件开发 |
5.3 实验验证与分析 |
5.3.1 疲劳检测准确性验证 |
5.3.2 疲劳驾驶预警系统实时性验证 |
5.4 本章小结 |
总结和展望 |
总结 |
展望 |
致谢 |
参考文献 |
攻读硕士学位期间学术成果 |
(10)基于集成策略的个人信用评估模型(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 本文研究内容 |
1.4 论文结构 |
第二章 数据挖掘算法原理 |
2.1 单一数据挖掘算法 |
2.2 集成策略介绍 |
2.2.1 同质集成算法中并行算法 |
2.2.2 同质集成算法中的串行算法 |
2.2.3 异质集成介绍 |
2.3 模型评估方式及指标 |
2.3.1 混淆矩阵 |
2.3.2 ROC曲线 |
2.3.3 KS值 |
2.3.4 kappa值 |
第三章 数据清洗及描述性分析 |
3.1 数据描述 |
3.2 数据清洗 |
3.2.1 特征选择 |
3.2.2 特征降维 |
第四章 基于不同集成模型的实证分析 |
4.1 基学习器贝叶斯优化 |
4.2 集成模型贝叶斯优化 |
4.3 异质集成模型对比分析 |
第五章 研究结论与总结 |
5.1 全文总结 |
5.2 不足与展望 |
参考文献 |
致谢 |
附录 |
四、基于贝叶斯网络的回归树学习算法(论文参考文献)
- [1]机器学习对延伸期降水集合预报的订正与释用分析[D]. 孔小翠. 南京信息工程大学, 2021(01)
- [2]基于机器学习的情感计算模型超参数优化方法研究[D]. 赵晓静. 天津师范大学, 2021(09)
- [3]基于数据驱动的电力系统暂态稳定评估方法研究[D]. 任继红. 东北电力大学, 2021(09)
- [4]基于车牌识别数据修复的个体出行路径链重构研究[D]. 魏鑫. 华南理工大学, 2020(02)
- [5]基于GBDT算法的区域外卖订单需求预测[D]. 刘佳晨. 大连海事大学, 2020(01)
- [6]基于特征提取与贝叶斯优化的电力负荷组合预测研究[D]. 资艳玲. 湖南师范大学, 2020(01)
- [7]湿法烟气脱硫过程建模、优化与预测[D]. 李艳宇. 北京工业大学, 2020(06)
- [8]基于数据挖掘的电信客户流失预警研究[D]. 李鑫. 云南财经大学, 2020(07)
- [9]基于面部多指标的疲劳驾驶预警系统研制[D]. 姜雪冰. 西南交通大学, 2020(07)
- [10]基于集成策略的个人信用评估模型[D]. 刘晓晨. 湘潭大学, 2020(02)