数据抽取分析及在数据仓库中的应用

一、数据仓库中的数据抽取分析及应用（论文文献综述）

吴纪龙^[1]（2021）在《中医药大数据资源数据仓库构建及处方分析应用研究》文中提出中医药学凝聚着深邃的哲学智慧和中华民族几千年的健康养生理念,在长期的临床诊疗实践中积累了丰富且宝贵的资源,这些资源种类繁多、数据量巨大并广泛分布于整个中医药领域,如何充分整合、利用及管理这些数据资源是中医药面临的难题。中药处方是中医药学理、法、方、药的重要组成部分,是在辨证论治的基础上选药配伍形成,基于大规模临床数据,发现治疗疾病的有效核心处方和潜在药物配伍可有效辅助临床决策支持。但当前仍然较多的采用传统方法对中医药数据进行存储和计算,这种方式扩展性不高且容易达到瓶颈。针对该问题,本文将有效结合大数据技术、机器学习及复杂网络等算法,对海量临床数据进行分布式挖掘,本文主要包括以下内容:（1）基于CDH（Cloudera’s Distribution Including Apache Hadoop）大数据平台,完成了对中医药大数据资源数据仓库的构建。首先,提出了一种自上而下和自下而上相结合的体系结构,使数据仓库的逻辑结构更加的清晰。同时,将多源数据采集到HDFS,分析其数据特点和相互之间的联系,设计了主题域模型和多维数据模型。然后,采用Spark、Hive QL等技术开发了ETL任务并通过Dolphin Scheduler配置了ETL工作流,完成了多源数据到数据仓库的映射,当前数据仓库包含的记录条数近3.4亿条,数据量约351GB。最后,采用Kylin针对方药主题构建了数据立方体,进行了多维OLAP分析示范研究。该数据仓库具有多源数据整合及数据处理等功能,具备Web多维分析和数据挖掘功能。（2）基于中医药大数据资源数据仓库,完成了对中医临床有效处方的分布式挖掘工作。首先,从数据仓库中抽取出慢阻肺病患者的临床诊疗数据形成数据集市。然后,根绝患者的治疗情况分为有效组和无效组,采用倾向性评分匹配方法消除两组间的混杂偏倚,针对有效组人群,提取其处方信息构建药物配伍网络并通过多尺度骨干网络算法提取核心药物子网,通过药物富集分析方法进行有效处方（P<0.05）发现,发现了165个有效处方,其有效比达到了80.88%,可作为治疗慢阻肺病的核心处方。最后,通过条件互信息法挖掘出有效药症知识。（3）开展了中药方剂配伍规律的分布式挖掘研究。为高效挖掘中药方剂中的关联规则,本文提出了一种分布式Charm算法,该算法基于Spark框架下,有效解决了传统方法挖掘效率低及内存溢出的问题。针对关联规则数量较多的问题,本文提出了一种分布式压缩算法,得到了更少的且更具代表性的关联规则,实验表明,得到的关联规则在临床上具有非常好的指导意义。

许诗怡^[2]（2020）在《森林资源数据仓库管理系统研建与数据分析应用技术研究》文中进行了进一步梳理本研究首先论述了森林资源异构数据集成以及数据仓库技术在林业上的研究现状。森林资源数据仓库在实际应用中还面临着以下两大问题:一是数据存储存在差异,且数据表中的统计字段名称、类型、代码等的表达形式也存在差异;二是数据存储的差异性造成数据利用率不高,深层次的多维分析、数据挖掘等是基于规范化的数据进行的。针对这些问题,研究以历史上存储的森林资源数据为基础,针对森林生产功能分析、适地适树规则提取、生长收获预测模型拟合等的分析需求,设计建立了两个数据仓库:森林资源小班数据仓库以及标准地/样地数据仓库,并完成对两个数据仓库事实表、维度表字段结构的详细设计。通过对ETL技术的研究,实现对森林资源异构数据源的抽取、清洗和转换,并将处理后的规范化数据存储在目标数据仓库中进行统一管理。在此基础上,研建一个基于B/S体系架构的森林资源数据仓库管理系统。系统的主要功能包括异构数据源获取、森林资源异构数据的清洗转换、森林资源数据多维分析、数据挖掘等。本研究高效的利用已有的森林资源数据可以为林场等经营单位提供生长收获、抚育间伐、规则提取等方面的决策支持。

常有学^[3]（2020）在《基于智能制造的数据仓库的设计与实现》文中研究说明《中国制造2025》提出了建设制造业强国的目标,中国的制造业逐渐迈入智能制造时代。随着智能制造的发展和信息化建设的普及,制造业企业的智能终端、传感器和工业软件在生产中会产生海量的业务数据,这些海量的业务数据一般都具有大数据的基本特征,但是企业对这些工业大数据的存储和计算都相对困难。同时,在企业中信息化建设中,由于信息隔离、数据驳杂和标准不统一等原因,各个工业软件间数椐隔离,在企业中产生了“信息孤岛”现象。“信息孤岛”现象使得生产数据未得到充分整合和应用,严重制约了以数据为驱动的智能制造模式的发展。如何解决工业大数据的存储与计算问题,帮助企业消除“信息孤岛”现象,从海量的数据中找到有价值的信息,在企业智能制造的发展中具有重要的意义。针对上述问题,本文以制造业中仓储业务为例进行研究,采用大数据+数据仓库的方式对仓储历史订单数据进行处理和分析,主要解决数据存储、计算困难和数据不互通的问题。设计并实现了一个基于Spark+Impala的分布式数据仓库系统,对制造业仓储业务的相关数据进行统一处理,最后利用数据挖掘和可视化技术将工业软件中的数据进行应用,解决仓库货位摆放的问题,实现工业软件中数据的互联互通,为企业提供数据支撑的决策优化支持。本文所做的主要工作如下:（1）针对生产数据不规则、有缺失和异构等问题,设计并实现基于Kettle+Sqoop 的分布式ETL系统,对数据进行抽取、转换和加载,提高ETL速度的同时解决数据更新问题,实现数据的完整和统一。（2）针对生产数据中存储不一致的问题,设计并实现基于Spark+Impala的数据仓库系统,确定该系统中的多种事实表、维度表、维度模型和总体架构。使用 Spark和Hive对数椐进行转换,使用Impala对数据进行交互式查询,提高不同场景下的计算速度,实现数椐的统存储和快速查询。（3）针对工业数据难以共享和利用的问题,对数据仓库系统进行应用。首先对历史订单数据进行关联规划挖掘,以优化货位摆放位置,同时把货品和销量数据进行可视化展示,实现数据的共享和有利数据的挖掘。

高菲^[4]（2020）在《零件设计阶段成本规则挖掘与成本预测研究》文中指出随着数据挖掘技术的成熟和制造业数据量的增长,制造企业更加依赖从大量数据中挖掘利用知识,辅助设计决策。在零件的全生命周期管理中,零件设计阶段影响了全生命周期75%的成本,在设计阶段控制好成本,成为制造企业保证竞争力的关键。本文围绕零件设计阶段成本规则挖掘与成本预测展开研究,并设计开发了相应的原型系统,可以在零件设计阶段分析成本,辅助设计人员工作,降低制造企业成本,提高企业效益。首先,针对企业单一系统数据库中成本数据不全面的问题,构建零件设计阶段成本数据仓库。明确成本数据仓库的设计要求及特点,分析制造企业信息化系统中的零件设计数据,采用结构化数据抽取手段,从各系统中获取设计阶段成本数据源,设计并构建成本数据仓库。其次,针对企业成本数据存在异常值、缺失值等问题,清洗成本数据仓库中的源数据。采用孤立森林（iForest）异常值检测算法,剔除成本数据中异常样本,同时,提出基于K-prototypes聚类的近邻填充（KPKNN）算法,填充成本缺失数据,解决零件设计阶段成本数据清洗问题,并运用实例证明算法清洗数据效果较好。再次,针对零件设计阶段成本规则冗余的问题,提出基于改进的FP-Growth的零件设计阶段成本规则挖掘算法。通过研究FP-Growth算法原理,改进条件模式基的生成过程,构建基于改进的FP-Growth的零件设计阶段成本规则挖掘模型,获取零件设计阶段成本规则。运用实例证明本文算法能减少生成冗余规则,缩短运行时间。然后,针对零件设计阶段成本预测不精确的问题,构建基于GA-BP神经网络的零件设计阶段成本预测模型。研究基于遗传算法的BP神经网络,构建基于GA-BP神经网络的零件设计阶段成本预测模型,实现零件成本预测。实例分析得出,GA-BP神经网络的预测精度更高,更适合成本预测。最后,依据所研究内容,本文利用Microsoft Visual Studio2019、SQL Server 2017、Anaconda3等软件平台设计开发原型系统。

张雪雯^[5]（2020）在《基于数据仓库的管理驾驶舱系统的设计与实现》文中进行了进一步梳理随着信息技术的快速发展,ERP系统、OA系统、CRM系统等管理信息系统已经广泛应用于各大企业的经营管理活动中,但随着企业业务范围的不断扩大,企业产生的数据量日益增长,对信息的简单管理已经不能满足当代企业的管理需求,各管理信息系统产生的数据缺乏互相联系,形成了大量的“信息孤岛”。企业如何将这些信息联系并利用起来,进而为管理层提供决策支持已经成为企业发展的当务之急。为解决上述问题,本文通过对某投资企业信息系统现状及各部门需求的调研,采用B/S架构设计并实现基于数据仓库的管理驾驶舱系统,将与企业经营状况相关的系统数据、电子文档数据和外部数据收集起来,并在此基础上进行数据分析与数据挖掘。在设计管理驾驶舱系统时,本文通过需求分析将系统模块划分为数据获取模块、数据管理模块、数据分析模块、风险预警模块、系统管理模块和登录模块。数据获取模块中为了解决数据集成的问题,在Hadoop集群上通过星型建模方式建立Hive数据仓库,并使用Kettle对源数据进行ETL处理,将数据按照一定的规则转换后加载至数据仓库中进行存储,形成了统一的数据中心。数据管理模块旨在解决数据仓库中元数据管理的问题,保证数据的质量。数据分析模块中使用大数据分析组件Kylin对数据进行OLAP分析,同时,为了更加直观的展示OLAP的分析结果,通过HTML5、Vue和ECharts组件将分析结果以多样化图表的形式进行展示,实现数据的可视化。风险预警模块的目的是提高企业应对财务危机的能力,本文设计并训练Logistic回归模型,用于预测财务危机发生的概率,实现对财务危机风险的预警功能。系统管理模块中使用Shiro框架实现用户权限控制,并在登录模块中对用户名及密码进行验证,实现系统的访问控制,保证系统的安全性。目前,管理驾驶舱系统已经建设完成并投入使用,系统运行状况良好,不仅为企业管理层决策提供了良好的数据支撑,还通过建立健全数据分析的指标体系,消除了数据上报口径不一致的问题,提高了数据分析的效率。

方岳^[6]（2020）在《基于ETL的省级等级公路路网数据仓库与可视化系统研究》文中认为随着社会经济和公路交通行业的快速发展,在省级等级公路领域逐渐面临更多更复杂的新问题。陕西省公路领域大多部门的现有存储设备较为老旧,性能不足以支撑百万级数据的并发。并且由于各个部门之间的数据信息结构不同,交互性差,甚至产生了信息孤岛。如何对海量公路数据高效处理,是公路信息化建设中亟需解决的重要问题。本文给出了一种基于ETL（Extract-Transform-Load）的省级等级公路路网数据仓库搭建与可视化的方法,并实现了数据的可视化,主要内容如下:（1）通过对省级等级公路数据的整理与分析,总结出多源异构的形成原因。针对数据多源异构的特点建立公路路网数据仓库模型,并对其中STG,ODS层的字段进行详细设计。（2）设计并实现了省级等级公路数据仓库数据抽取、清洗转换、存储、提供的处理全流程。利用建立临时表和发布者订阅者通信模型的方式,优化了数据仓库的抽取模块,并进行测试。结果表明优化之后的系统可以实现短时间内对海量省级等级路网数据的抽取,提高抽取效率。（3）以设计好的公路路网数据模型为核心,利用数据仓库的ETL技术对来自各省级等级公路部门的多源异构数据进行抽取与加载等处理,最后通过可视化方法对处理过后的数据进行展示,完成了数据的全流程处理。测试结果表明数据可视化环节能够进行报表查询,主题查询以及电子地图查询的功能。利用基于ETL的省级等级公路路网数据仓库与可视化技术,实现了对陕西省等级公路多源异构数据的整合。对缩小信息孤岛,减少数据整合周期,扩展省级等级公路信息可视化的应用层面,具有重要意义。

李伟超^[7]（2020）在《停车管理数据仓库构建与可视化分析》文中研究表明停车困难的问题日益严峻,不仅反映了停车站点现存资源的规划缺乏一定的科学性,也体现了企业对于大量停车数据信息分析利用的不完整。充分应用相关数据进行分析并制定正确的决策需要完整、科学的企业解决方案系统,现有的企业级数据管理系统更偏向于数据的查询以及存储功能,面向业务数据分析的应用仍具有一定的不足,而商务智能系统在具备数据存储、数据查询功能的技术基础上提供了面向用户的多维数据分析操作,通过运用商务智能系统可以系统地构建一整套针对相关数据存储、数据质量处理、数据建模分析以及分析结果展示的智能数据平台,在基于数据仓库针对企业数据分析功能的基础上应用可视化技术对数据分析结果进一步展示,实现了对企业相关业务决策制定的支持。本文主要以SQL Server Business Intelligence工具构建停车管理企业的商务智能系统,其中核心技术包括ETL流程设计、数据仓库构建以及可视化技术研究应用。其中,通过ETL技术实现了停车管理部门相关业务数据的质量完善以及各类源数据整合;在构建数据仓库过程中,针对已完善的数据制定相关的分析业务主题并构建多个数据维度,实现停车管理数据的多维度分析;最终应用数据可视化技术灵活、直观地对停车管理数据分析结果进行展示,为用户制定相关决策提供数据支持。本文在ETL流程设计中,针对数据抽取的方式采取了全表插入的方法;对数据进行修改实现数据的清洗设计,并以统一数据类型的方法进行数据转换。在构建数据仓库过程中,针对停车管理企业的业务规则制定了4个业务主题,并对各个主题及其属性组进行逻辑关系划分,最终构建相应的事实表以及维度表完成数据仓库的构建。在以数据报表形式对数据分析展示的基础上进行技术拓展,应用开源代码以及map V、Fine Report工具软件实现基于数据仓库的可视化分析综合应用。通过应用本文研究的技术方法,帮助企业分析了实际的运营情况,对相关决策的制定起到了积极的作用,基本满足企业解决实际问题的需求。

王家欢^[8]（2020）在《基于语义的数据仓库构建方法研究及应用》文中指出数据仓库在数据综合、归类并进行分析上具有很好的处理能力。因此,用数据仓库集成元器件生命周期中的质量数据可以为元器件选型提供支持。但是建立元器件全生命周期质量数据仓库存在以下问题:一、对数据的统一表示困难。由于元器件的生命周期中存在很多部门,分散的数据组成要素不全,缺乏统一的数据表示模型,多源数据之间无法进行数据传递和交换。二、对实例数据的转化困难。由于各个部门的数据具有语义异构、海量的特点,所以转化到数据表示模型之前需要采用语义技术进行消歧,同时针对海量数据需要采用高效率的转化方法。针对上述问题,本文提出了基于语义的数据仓库构建方法。本方法旨在通过语义技术构建数据元模型,将各部门的元器件数据进行统一表示。然后结合语义技术将元器件全生命周期的实例数据高效地抽取、清洗、加载到数据仓库中。在进行设计选型时,为设计师提供可靠的元器件相关质量信息,通过参数匹配、智能分析等,动态地提供设计师所需的元器件,从而避免选型中可能存在的质量风险。本文的主要研究工作包括:一、基于语义的数据仓库构建方法框架研究本文提出了基于语义的数据仓库构建方法框架,该方法框架包括数据元模型构建模块、数据仓库构建模块和应用模块。分别实现了数据仓库建模,数据仓库实例数据导入和元器件选型推荐应用。二、面向元器件全生命周期的数据元模型构建本文提出了构建面向元器件全生命周期的数据元模型,从概念层面消除了元器件部门数据表示的语义异构,解决了数据的统一表示困难问题。首先从元器件全生命周期的业务表单中抽取出业务概念及关系,经过语义融合,得到元数据,然后进行基于元数据的数据仓库维度建模,形成数据仓库元模型。三、基于语义的数据仓库构建本文对数据抽取、清洗与转换、加载和元模型更新进行了研究。本文的主要工作包括两方面:一方面,解决了数据语义异构问题。采用基于同义词字典+规则的数据清洗与转换方法,从实例层面解决了数据语义异构等质量问题。采用基于子节点匹配的数据仓库元模型概念更新方法,通过更新数据仓库元模型,解决数据仓库在数据源变更时产生的概念层面的语义异构问题。另一方面,解决了海量数据转化到数据仓库中的效率问题。采用基于时间戳和日志的增量式抽取方法,解决了数据仓库在海量数据抽取时的效率问题。采用面向实时查询的数据仓库加载方法,解决了数据仓库在海量数据加载时速度慢和实时查询的效率低的问题。最后,基于星环大数据平台构建元器件质量数据仓库,通过元器件选型推荐应用验证,阐明了本文方法的有效性。

谢路伦^[9]（2019）在《基于Spark的电商用户行为分析与研究》文中研究指明伴随着中国移动互联网的快速发展以及5G时代的到来,各行各业的从业人员基本都会使用电商网站来购买生活中所需要的各种商品。电商用户在互联网中的点击行为产生的日志信息就是一座巨大的金矿,如何处理和挖掘这座金矿成为了当下急需解决的问题,也吸引了无数学者的关注。面对海量的用户日志信息,摆在研究者面前的难题主要在于数据的存储和数据的挖掘,现如今兴起的大数据技术很好的解决了这两个问题。以Hadoop平台为基础的整个大数据生态系统完整的包含了数据的存储和数据的分析功能。利用Hadoop的分布式文件存储系统HDFS存储海量的用户日志信息,利用Spark集群的基于内存的迭代式的计算模型可以快速的帮助我们分析和计算用户的日志信息。本文通过搭建Spark平台,利用Spark生态系统的相关组件实现系统各个模块的功能。利用Spark Core+Spark SQL组件实现电商用户行为数据的处理和统计,利用Spark MLlib机器学习库实现并行化的ALS（Alternating Least Square）算法从而对用户行为数据进行挖掘分析。通过Spark集群的离线计算和实时计算相结合,利用集群强大的计算能力,系统分析了互联网用户的行为轨迹。根据分析的数据设计了离线推荐和实时推荐相结合的推荐模型,既可以给用户做离线推荐也可以给用户做实时推荐。

周飞^[10]（2018）在《商业银行数据仓库的设计与数据挖掘》文中认为数据仓库技术经过多年的发展,在各行各业中已经得到了很广泛的应用,尤其是在金融行业的商业银行中运用的更加普遍。国际市场上的几个大的数据仓库软件厂商,如DB2,Oracle,Sql Server等,都提供了功能强大的数据仓库数据技术产品,为分散的业务数据集中统一存储提供了强大的软硬件保障。商业银行通过使用数据仓库,可以极大的提高数据使用的效率,为企业内部各业务系统的数据分析和数据挖掘打下了坚实的基础。本文基于国内某商业银行数据中心的数据仓库系统项目,开展了研究工作。首先介绍了近年来数据仓库的国内外发展状况,其次介绍了数据仓库与数据挖掘的相关理论概念,主要包括数据仓库技术,数据仓库与数据库的区别,数据调度ETL（Extract-Transform-Load）系统等。将商业银行各业务系统的特点相结合,对商业银行数据仓库的项目进行了需求分析,包括数据主题域分析,数据存储规划分析。此次数据仓库的架构设计以IBM BDW（Banking Data Warehouse）数据仓库方法论为依据,使用IBM公司的数据仓库软硬件产品来实现。通过数据调度ETL系统的开发与设计,实现了从各个业务数据源系统中抽取数据到数据仓库中进行集中存储,对业务数据进行数据分析,并提供了数据的查询分析展示界面。论文还运用机器学习算法,对信贷行业中借贷者是否会违约还款进行预测。采用违约不还款的10000个数据集样本和按时还款的10000个数据集样本作为研究对象,首先对借贷客户的借贷数据信息做数据预处理,运用逻辑回归、支持向量机、随机森林、K最近邻和多层感知器等机器学习算法来构造违约预测模型,进行用户是否违约预测。实验结果表明,多层感知器模型有最好的预测效果。本文通过对商业银行的数据仓库的设计和数据挖掘的研究,构建了一个可以有效解决数据整合存储的数据仓库模型,实现了商业银行业务数据的集中统一存储,为商业银行进行业务数据分析提供了统一分析平台。商业银行通过提升经营理念,优化组织架构,结合科学高效的数据仓库技术作为支撑,可以在大数据时代得到更好的发展。图34表13参57

二、数据仓库中的数据抽取分析及应用（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、数据仓库中的数据抽取分析及应用（论文提纲范文）

（1）中医药大数据资源数据仓库构建及处方分析应用研究（论文提纲范文）

致谢

摘要

ABSTRACT

1 引言

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文主要工作

1.4 论文组织结构

2 相关研究方法

2.1 大数据相关技术

2.1.1 Apache Hadoop

2.1.2 Apache Hive

2.1.3 Apache Spark

2.1.4 Apache Kylin

2.1.5 Apache Dolphin Scheduler

2.2 临床数据挖掘相关方法

2.2.1 倾向性评分匹配

2.2.2 药物配伍网络构建

2.2.3 多尺度骨干网络算法

2.2.4 药物集富集分析方法

2.2.5 互信息熵

2.3 关联规则挖掘方法

2.3.1 关联规则基本概念

2.3.2 关联规则挖掘过程

2.3.3 Apriori算法

2.3.4 FP-Growth算法

3 中医药大数据资源数据仓库研究及构建

3.1 中医药大数据资源数据仓库概述

3.1.1 数据仓库技术概述

3.1.2 中医药数据来源

3.2 中医药大数据资源数据仓库体系结构

3.3 中医药大数据资源数据仓库构建的准备工作

3.3.1 大数据平台搭建

3.3.2 中医药源数据分析思路

3.4 中医药大数据资源数据仓库数据模型设计

3.4.1 数据模型设计原则

3.4.2 主题域数据模型

3.4.3 多维数据模型

3.5 中医药大数据资源数据仓库命名规范

3.5.1 库名命名规范

3.5.2 表名命名规范

3.5.3 字段名命名规范

3.6 中医药大数据资源数据仓库ETL过程

3.6.1 数据抽取

3.6.2 数据处理

3.6.3 ETL任务配置

3.6.4 ETL任务结果

3.7 方药主题多维OLAP分析

3.8 本章小结

4 中医临床有效处方分布式挖掘方法研究

4.1 方法概述

4.2 慢阻肺数据集市构建

4.2.1 患者用药过程数据表设计

4.2.2 倾向病例匹配结果表设计

4.2.3 药物配伍网络结果表设计

4.2.4 核心药物子网结果表设计

4.2.5 药物富集分析结果表设计

4.2.6 药症相关性分析结果表设计

4.3 分布式分析方法设计与实现

4.3.1 分布式假设检验实现

4.3.2 消除混淆因素和样本均衡处理

4.3.3 分布式药物配伍网络构建

4.3.4 分布式核心药物子网提取

4.3.5 分布式药物富集分析

4.3.6 分布式药症相关性分析

4.4 实验结果

4.4.1 实验数据分析

4.4.2 分布式倾向病例匹配结果

4.4.3 分布式药物配伍网络结果

4.4.4 分布式核心药物子网结果

4.4.5 分布式药物富集分析结果

4.4.6 分布式药症相关性分析结果

4.5 本章小节

5 基于关联规则的中药方剂配伍规律分布式挖掘研究

5.1 频繁闭项集挖掘

5.1.1 频繁闭项集相关概念

5.1.2 Charm算法

5.2 分布式Charm算法

5.2.1 数据预处理

5.2.2 通过等价类划分数据集

5.2.3 分布式阶段

5.2.4 汇总阶段

5.3 频繁闭项集的分布式压缩算法

5.3.1 数据预处理

5.3.2 频繁闭项集压缩

5.3.3 分布式实现过程

5.4 实验与结果分析

5.4.1 实验数据描述

5.4.2 分布式Charm与传统Charm挖掘效率比较

5.4.3 分布式关联规则挖掘结果

5.4.4 分布式压缩频繁闭项集结果

5.5 本章小结

6 总结与展望

6.1 工作总结

6.2 未来展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

学位论文数据集

（2）森林资源数据仓库管理系统研建与数据分析应用技术研究（论文提纲范文）

摘要

abstract

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 森林资源异构数据集成的研究现状

1.2.2 数据仓库在林业上的应用研究

1.2.3 ETL技术的研究

1.2.4 OLAP技术的研究

1.2.5 林业数据挖掘技术的研究

1.2.6 小结

1.3 研究目标和内容

1.3.1 研究目标

1.3.2 研究内容

1.3.3 研究拟解决的关键问题

1.4 研究方法与研究技术路线

1.4.1 研究方法

1.4.2 研究的技术路线

1.5 研究数据

1.6 项目来源与经费支持

1.7 论文组织结构

2 研究的理论与技术基础

2.1 数据仓库技术

2.1.1 数据仓库的概念

2.1.2 数据仓库建模方法

2.2 ETL技术

2.3 OLAP技术

2.3.1 OLAP技术基本概念

2.3.2 多维分析的基本操作

2.4 数据挖掘技术

2.4.1 数据挖掘的概念

2.4.2 常用的森林资源数据挖掘算法

2.5 本章小结

3 森林资源数据仓库设计与构建

3.1 森林资源小班数据仓库设计

3.1.1 概念模型设计

3.1.2 逻辑模型设计

3.1.3 物理模型设计

3.2 标准地/样地数据仓库设计

3.2.1 逻辑模型设计

3.2.2 物理模型设计

3.3 本章小结

4 森林资源异构数据的ETL技术研究

4.1 森林资源异构数据ETL需求分析

4.2 数据抽取子模型

4.3 数据转换子模型

4.3.1 数据清洗模块

4.3.2 数据转换模块

4.4 数据加载子模型

4.5 本章小结

5 森林资源数据仓库数据分析实例

5.1 OLAP与数据挖掘

5.2 森林资源数据OLAP技术应用

5.2.1 多维数据立方体的建立

5.2.2 森林生产功能分析

5.2.3 龄组、林种多样性及动态变化分析

5.3 森林资源数据挖掘技术应用

5.3.1 适地适树规则提取

5.3.2 生长收获预测模型拟合

5.4 本章小结

6 森林资源数据仓库管理系统的研建

6.1 系统需求分析

6.1.1 用户需求分析

6.1.2 功能需求分析

6.2 系统结构设计

6.2.1 系统体系结构设计

6.2.2 系统功能结构设计

6.3 森林资源数据仓库管理系统运行实例

6.3.1 异构数据源获取

6.3.2 数据清洗、转换

6.3.3 数据仓库管理

6.4 本章小结

7 总结与展望

7.1 总结

7.2 展望

参考文献

个人简介

导师简介

致谢

（3）基于智能制造的数据仓库的设计与实现（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 选题依据及意义

1.2 国内外研究现状

1.2.1 智能制造的研究现状

1.2.2 数据仓库研究现状

1.2.3 分布式计算平台研究现状

1.3 课题主要研究内容

1.4 本文的组织结构

第2章理论基础、关键技术与需求分析

2.1 数据仓库

2.1.1 数据仓库的概念和特点

2.1.2 数据仓库和数据库的对比

2.1.3 数据仓库的架构

2.2 大数据理论

2.3 Hadoop

2.4 Spark

2.4.1 Spark简介

2.4.2 Spark的架构

2.4.3 Spark和Hadoop自的对比

2.5 Hive

2.6 Impala

2.7 Kettle

2.8 需求分析

2.9 本章小结

第3章 ETL系统的设计

3.1 智能制造中ETL系统分析

3.1.1 传统ETL系统的介绍及其劣势

3.1.2 分布式ETL系统的介绍及其优势

3.2 ETL系统的架构设计

3.3 分布式ETL系统的模型设计

3.3.1 数据抽取

3.3.2 数据转换

3.3.3 数据加载

3.4 本章小结

第4章数据仓库系统的设计

4.1 智能制造中仓储业务分析

4.2 数据仓库系统的架构设计

4.3 建模方法介绍及选择

4.3.1 范式建模

4.3.2 维度建模

4.3.3 独立数据集市

4.3.4 数据仓库模型选择

4.4 数据仓库的模型设计

4.4.1 选择业务过程

4.4.2 声明粒度

4.4.3 维度表设计

4.4.4 事实表设计

4.4.5 模型设计

4.5 本章小结

第5章系统的实现、应用与性能分析

5.1 系统环境部署

5.2 系统的实现

5.2.1 ETL系统的实现

5.2.2 数据仓库系统的实现

5.3 系统的应用

5.3.1 基于数据挖掘的货位优化

5.3.2 数据可视化

5.4 系统性能实验分析

5.4.1 MapReduce和Spark数据处理速度的对比

5.4.2 Impala、Hive和MySQL的查询速度对比

5.5 本章小结

第6章结论与展望

6.1 结论

6.2 展望

致谢

参考文献

攻读学位期间的研究成果

（4）零件设计阶段成本规则挖掘与成本预测研究（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 研究背景

1.2 国内外研究现状

1.2.1 成本数据预处理研究现状

1.2.2 成本规则挖掘研究现状

1.2.3 成本预测研究现状

1.3 存在的问题

1.4 研究目的及意义

1.5 研究内容

第2章零件设计阶段的成本数据存储

2.1 数据仓库概述

2.1.1 数据仓库概念及特点

2.1.2 数据仓库设计流程

2.2 零件设计阶段成本数据仓库需求分析

2.2.1 成本数据仓库设计要求及特点

2.2.2 设计阶段成本数据源及需求分析

2.3 设计阶段成本数据仓库三级模型设计

2.3.1 概念模型设计

2.3.2 逻辑模型设计

2.3.3 物理模型设计

2.4 本章小结

第3章零件设计阶段的成本数据清洗处理

3.1 基于iForest的成本数据异常值检测

3.1.1 iForest异常值检测算法

3.1.2 实例验证

3.2 基于聚类的成本缺失数据近邻填充

3.2.1 基于维度频率相异度的K原型聚类算法

3.2.2 基于聚类的成本缺失数据近邻填充算法

3.2.3 实验结果与分析

3.3 本章小结

第4章基于改进的FP-Growth的零件设计阶段成本规则挖掘

4.1 零件设计阶段成本规则挖掘算法

4.1.1 FP-Growth算法

4.1.2 FP-Growth算法优化与实现

4.2 基于改进的FP-Growth算法的零件设计阶段成本规则挖掘

4.3 实例验证

4.4 本章小结

第5章基于GA-BP神经网络的零件设计阶段成本预测

5.1 零件设计阶段成本预测模型

5.1.1 BP神经网络算法

5.1.2 基于遗传算法的BP神经网络

5.2 基于GA-BP神经网络的零件成本预测模型

5.3 实例验证

5.4 本章小结

第6章零件设计阶段成本规则挖掘与成本预测原型系统开发

6.1 零件设计阶段成本规则挖掘与成本预测原型系统方案设计

6.1.1 系统体系框架设计

6.1.2 系统功能模块设计

6.2 系统功能模块开发

6.2.1 系统开发环境

6.2.2 系统主要模块的开发实例

6.3 本章小结

第7章总结与展望

7.1 总结

7.2 展望

参考文献

攻读硕士学位期间发表的学术论文

致谢

学位论文评阅及答辩情况表

（5）基于数据仓库的管理驾驶舱系统的设计与实现（论文提纲范文）

致谢

摘要

ABSTRACT

1 绪论

1.1 论文的背景及意义

1.2 国内外发展现状

1.2.1 国内外数据仓库发展现状

1.2.2 国内外管理驾驶舱系统发展现状

1.3 论文的主要工作

1.4 论文组织结构

2 关键技术及理论

2.1 数据仓库技术

2.1.1 数据仓库概述

2.1.2 Hive

2.1.3 ETL

2.2 联机分析处理技术

2.2.1 OLAP概述

2.2.2 Apache Kylin

2.3 逻辑回归模型

2.4 本章小结

3 管理驾驶舱系统的需求分析

3.1 整体需求分析

3.1.1 业务范围定义

3.1.2 系统角色定义

3.2 功能性需求

3.2.1 数据采集与处理需求

3.2.2 数据管理需求

3.2.3 数据分析需求

3.2.4 财务危机预警需求

3.2.5 系统管理需求

3.3 非功能性需求

3.4 本章小结

4 管理驾驶舱系统的总体设计

4.1 系统总体结构设计

4.1.1 ETL层设计

4.1.2 数据存储层设计

4.1.3 应用层设计

4.1.4 展现层设计

4.2 系统功能结构设计

4.3 本章小结

5 数据仓库的设计与实现

5.1 数据仓库的设计原则

5.2 基础数据表设计

5.3 概念模型设计

5.4 逻辑模型设计

5.5 物理模型设计

5.6 本章小结

6 管理驾驶舱系统的详细设计与实现

6.1 数据获取模块

6.2 数据管理模块

6.3 数据分析模块

6.3.1 分析方法概述

6.3.2 数据分析的设计与实现

6.4 风险预警模块

6.4.1 样本数据选择

6.4.2 财务预警指标体系

6.4.3 样本数据预处理

6.4.4 Logistic回归分析

6.5 系统管理模块与登陆模块

6.6 本章小结

7 管理驾驶舱系统测试

7.1 测试综述

7.2 功能性测试

7.3 非功能性测试

7.4 测试结果分析

7.5 本章小结

8 总结与展望

8.1 总结

8.2 展望

参考文献

作者简历及攻读硕士/博士学位期间取得的研究成果

学位论文数据集

（6）基于ETL的省级等级公路路网数据仓库与可视化系统研究（论文提纲范文）

摘要

abstract

第一章绪论

1.1 研究背景及意义

1.2 数据仓库在国内外研究现状

1.3 主要解决问题

1.4 论文组织结构

第二章省级等级公路数据分析

2.1 省级等级公路数据多源异构性分析

2.1.1 省级等级公路数据分类与传递网络

2.1.2 多源异构性产生原因

2.2 省级等级公路路网数据特征分析

2.3 省级等级公路路网数据整合方法

2.4 系统需求分析

2.5 本章小结

第三章省级等级公路路网数据仓库设计

3.1 数据仓库工作原理

3.2 数据仓库整体架构

3.3 数据仓库主题设计

3.4 省级等级公路路网数据模型

3.4.1 STG层结构设计

3.4.2 ODS层结构设计

3.4.3 数据字典设计

3.5 本章小结

第四章省级等级公路路网数据处理全流程实现

4.1 数据仓库ETL结构

4.2 数据抽取

4.2.1 数据抽取组件分析

4.2.2 数据抽取流程设计

4.2.3 数据抽取优化改进

4.2.4 性能测试

4.3 数据处理

4.3.1 数据清洗设计实现

4.3.2 数据处理设计实现

4.4 数据存储

4.4.1 数据存储组件分析

4.4.2 数据存储设计实现

4.5 数据提供

4.5.1 现有信息系统数据提供

4.5.2 数据报表接口服务设计

4.6 本章小结

第五章省级等级公路数据可视化实现

5.1 数据可视化技术

5.2 可视化环节架构设计

5.3 可视化接口设计

5.4 可视化运行流程

5.5 可视化环节功能测试

5.5.1 测试环境

5.5.2 测试结果

5.6 本章小结

总结与展望

参考文献

附录

附录1 数据仓库的数据模型表单设计

附录2 数据仓库的数据字典设计

致谢

（7）停车管理数据仓库构建与可视化分析（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究背景及意义

1.2 国内外研究动态

1.3 研究内容

1.4 研究方法与技术路线

1.5 论文结构安排

第二章商务智能相关理论及方法

2.1 商务智能主要理论

2.1.1 商务智能概念

2.1.2 商务智能核心架构

2.2 商务智能主要技术方法

2.2.1 ETL技术

2.2.2 数据仓库技术

2.2.3 联机分析处理技术

2.2.4 数据挖掘技术

2.2.5 报表展示技术

2.3 数据可视化理论及方法

2.3.1 数据可视化技术概述

2.3.2 基于数据仓库的数据报表技术

2.3.3 动态可视化技术

2.4 本章小结

第三章基于停车管理的数据仓库设计与构建

3.1 业务需求分析

3.2 数据仓库设计

3.2.1 概念模型设计

3.2.2 逻辑模型设计

3.2.3 物理模型设计

3.3 ETL流程设计

3.3.1 数据抽取设计

3.3.2 数据清洗与转换设计

3.3.3 数据加载设计

3.4 本章小结

第四章停车数据的可视化分析

4.1 基于数据仓库的数据报表系统设计与展示

4.1.1 报表主题分析与设计

4.1.2 报表设计

4.1.3 报表展示

4.1.4 报表的部署与管理

4.2 停车管理数据的可视化展示

4.2.1 可视化技术方法的比较与选择

4.2.2 规划目标分析以及应用软件设置

4.2.3 基于前端技术软件的停车数据可视化分析

4.3 本章小结

第五章总结与展望

5.1 研究结论

5.2 研究展望

参考文献

致谢

附录

作者简介

（8）基于语义的数据仓库构建方法研究及应用（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 数据仓库元数据

1.2.2 数据仓库ETL技术

1.2.3 数据仓库模型更新

1.2.4 国内外研究现状总结

1.3 主要研究内容

1.4 论文组织结构

第二章基于语义的数据仓库构建方法框架研究

2.1 业务场景分析

2.2 基于语义的数据仓库构建方法整体框架

2.3 本章小结

第三章面向元器件全生命周期的数据元模型构建

3.1 元数据定义

3.2 元数据抽取

3.3 元数据融合

3.4 基于元数据的数据仓库维度建模

3.5 本章小结

第四章基于语义的数据仓库构建

4.1 基于时间戳和日志的增量式数据抽取方法

4.1.1 基于时间戳的增加和修改数据增量抽取

4.1.2 基于日志的删除数据增量抽取

4.2 基于同义词字典+规则的数据清洗与转换方法

4.2.1 同义词字典

4.2.2 清洗规则制定

4.2.3 清洗过程

4.2.4 数据转换

4.3 面向实时查询的数据仓库加载方法

4.3.1 数据仓库表的更新

4.3.2 临时表加载新数据

4.3.3 实时查询更新

4.3.4 数据仓库打包和优化

4.4 基于子节点匹配的数据仓库元模型概念更新方法

4.5 实验验证

4.5.1 数据集和实验工具

4.5.2 评估指标

4.5.3 评估结果

4.6 本章小结

第五章元器件选型推荐系统实现与讨论

5.1 平台应用背景及方法

5.1.1 元器件基本信息校验

5.1.2 元器件选用评估

5.1.3 元器件选型推荐

5.2 系统架构设计

5.3 系统详细设计

5.3.1 存储层

5.3.2 控制层

5.3.3 应用层

5.4 原型系统验证及展示

5.4.1 数据元模型构建

5.4.2 数据仓库构建

5.4.3 基于数据仓库的典型应用

5.5 系统讨论与分析

5.6 本章小结

第六章总结与展望

6.1 全文工作总结

6.2 未来工作展望

参考文献

致谢

攻读学位期间发表的学术论文目录

（9）基于Spark的电商用户行为分析与研究（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 课题研究的背景与意义

1.2 国内外研究现状

1.3 用户行为分析的重难点

1.4 论文整体结构

第二章相关技术及理论介绍

2.1 基于内存的并行计算框架Spark

2.2 推荐系统理论

2.3 本章小结

第三章项目体系架构设计

3.1 系统设计目标和原则

3.2 系统架构设计

3.3 数据采集模块架构

3.4 数据仓库架构

3.5 推荐系统架构

3.6 本章小结

第四章数据仓库实现

4.1 数据仓库数据源分析

4.2 数据仓库的物理设计

4.3 数据仓库数据处理实现

4.4 本章小结

第五章推荐系统实现

5.1 推荐系统总体设计

5.2 基于LFM协同过滤推荐的离线计算

5.3 基于商品标签推荐算法的离线计算

5.4 实时推荐引擎实现

5.5 本章小结

第六章实验结果与分析

6.1 实验环境

6.2 实验设计

6.3 实验评测

6.4 本章小结

第七章总结与展望

7.1 工作总结

7.2 创新内容

7.3 进一步工作

参考文献

致谢

个人简介

（10）商业银行数据仓库的设计与数据挖掘（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 选题背景及意义

1.1.1 选题背景

1.1.2 研究意义

1.2 国内外研究现状

1.3 本文研究内容与结构安排

第二章基础理论与技术

2.1 数据仓库

2.1.1 数据仓库简介

2.1.2 数据仓库与数据库的区别

2.1.3 数据仓库与数据集市

2.1.4 元数据

2.2 数据调度ETL技术

2.2.1 数据抽取

2.2.2 数据转换

2.2.3 数据装载

2.3 数据挖掘

2.4 常用分类算法简介

2.4.1 逻辑回归

2.4.2 随机森林

2.4.3 支持向量机

2.4.4 最近邻算法

2.4.5 感知器

第三章 A商业银行数据仓库系统的需求分析

3.1 建设背景与目标

3.1.1 建设背景

3.1.2 建设目标

3.1.3 建设实施阶段

3.2 业务主题分析

3.3 业务数据分析

3.3.1 全局数据分析

3.3.2 数据存储规划分析

3.4 业务物理模型分析

3.4.1 表级逻辑分析

3.4.2 表空间规则

3.4.3 表命名规则

3.4.4 物理数据模型分析

3.5 数据仓库运行环境分析

第四章 A商业银行数据仓库的设计与展示

4.1 系统整体架构

4.1.1 数据存储结构

4.1.2 数据查询结构

4.2 数据库设计

4.2.1 数据库架构设计

4.2.2 数据库查询优化

4.3 数据的备份

4.4 ETL系统模型设计

4.4.1 ETL系统的功能与特点

4.4.2 ETL系统架构设计

4.4.3 ETL调度系统开发设计

4.5 ETL数据调度系统的实现

4.5.1 作业依赖关系梳理

4.5.2 调度作业开发实现

4.6 数据仓库的展示

第五章信贷业务违约风险预测

5.1 信贷业务分析

5.2 二分类模型评估指标

5.2.1 预测类型

5.2.2 混淆矩阵

5.2.3 ROC与AUC

5.3 数据处理与特征工程

5.3.1 业务数据分析与实验准备

5.3.2 特征提取

5.3.3 特征选择

5.4 应用模型与参数调优

5.4.1 模型选择及其特点

5.4.2 交叉验证与参数调优

5.5 实验结果与评估分析

第六章总结和展望

6.1 总结

6.2 展望

参考文献

致谢

作者简介及读研期间主要科研成果

四、数据仓库中的数据抽取分析及应用（论文参考文献）

[1]中医药大数据资源数据仓库构建及处方分析应用研究[D]. 吴纪龙. 北京交通大学, 2021(02)
[2]森林资源数据仓库管理系统研建与数据分析应用技术研究[D]. 许诗怡. 北京林业大学, 2020
[3]基于智能制造的数据仓库的设计与实现[D]. 常有学. 南昌大学, 2020(01)
[4]零件设计阶段成本规则挖掘与成本预测研究[D]. 高菲. 山东大学, 2020(10)
[5]基于数据仓库的管理驾驶舱系统的设计与实现[D]. 张雪雯. 北京交通大学, 2020(03)
[6]基于ETL的省级等级公路路网数据仓库与可视化系统研究[D]. 方岳. 长安大学, 2020(06)
[7]停车管理数据仓库构建与可视化分析[D]. 李伟超. 西安电子科技大学, 2020(05)
[8]基于语义的数据仓库构建方法研究及应用[D]. 王家欢. 上海交通大学, 2020(01)
[9]基于Spark的电商用户行为分析与研究[D]. 谢路伦. 北方民族大学, 2019(04)
[10]商业银行数据仓库的设计与数据挖掘[D]. 周飞. 安徽建筑大学, 2018(01)

标签：大数据论文; 数据仓库论文; etl论文; 数据集成论文; 相关性分析论文;

数据抽取分析及在数据仓库中的应用

一、数据仓库中的数据抽取分析及应用（论文文献综述）

二、数据仓库中的数据抽取分析及应用（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、数据仓库中的数据抽取分析及应用（论文提纲范文）

（1）中医药大数据资源数据仓库构建及处方分析应用研究（论文提纲范文）

（2）森林资源数据仓库管理系统研建与数据分析应用技术研究（论文提纲范文）

（3）基于智能制造的数据仓库的设计与实现（论文提纲范文）

（4）零件设计阶段成本规则挖掘与成本预测研究（论文提纲范文）

（5）基于数据仓库的管理驾驶舱系统的设计与实现（论文提纲范文）

（6）基于ETL的省级等级公路路网数据仓库与可视化系统研究（论文提纲范文）

（7）停车管理数据仓库构建与可视化分析（论文提纲范文）

（8）基于语义的数据仓库构建方法研究及应用（论文提纲范文）

（9）基于Spark的电商用户行为分析与研究（论文提纲范文）

（10）商业银行数据仓库的设计与数据挖掘（论文提纲范文）

四、数据仓库中的数据抽取分析及应用（论文参考文献）

猜你喜欢