数据透视图模型通常是指纯粹从科学角度定义的统计或数据挖掘,机器学习,人工智能和其他类型的模型。
1.减少尺寸
当面对海量数据或用于数据挖掘的大数据时,通常会遇到“维度灾难”,因为数据集的维度可以继续增长到无穷大,但是计算机的处理能力和速度也受到限制。对于数据集,大量维度之间可能存在共线关系,直接导致学习模型缺乏鲁棒性,甚至算法结果经常无效,因此我们需要考虑维度数量和效果collineart的尺寸在尺寸之间减小。
减少数据维数也已成为减少数据量或减少数据量,其目的是减少数据计算和建模中涉及的维数。减少数据维数的想法有两种:一种是基于特征选择的维数缩减,另一种是基于维数转换的维数缩减。
2.返回
回归是一种数据分析方法,用于检查自变量x对因变量y的影响。最简单的回归模型是单变量线性回归(仅包含一个自变量和一个因变量,并且两者之间的关系可以通过直线近似),可以表示为Y =β0+β1x+ε,其中Y为因变量x是自变量,β1是影响系数,β0是截距,ε是随机误差。
根据自变量的数量将回归分析分为单变量回归模型和多元回归模型。根据影响是否线性,分为线性回归和非线性回归。
3.聚类
聚类是数据挖掘和计算中的一项基本任务。聚类是一种将具有“相似”功能的大量数据点划分为统一类别并最终生成多个类的方法。聚类分析的基本思想是“聚类聚类,部分人聚类”。因此,大量数据集中必须存在相似的数据点。基于此假设,可以区分数据并可以找到每个数据记录的特征(分类)。
4.分类
分类算法是一类算法,其通过计算和分析已知类别的训练集并从中确定类别规则来预测新数据的类别。分类算法是解决分类问题的一种方法,是数据挖掘,机器学习和模式识别领域的重要研究领域。
5.协会
学习关联规则是通过找到最能解释数据变量之间关系的规则,在大量的多变量记录中找到有用的关联规则,这是一种从大量数据中查找多个数据之间的关系的方法。您可以根据时间序列打破多个数据之间的关系。关联分析的典型案例是捆绑销售“啤酒和尿布”,即使用尿布购买的用户一起购买啤酒。