数据挖掘
1 目的
数据挖掘用于通过从数据中发现有用的模式和见解来改进决策。
2 描述
数据挖掘是一种分析过程,它从不同角度研究大量数据,并以发现有用模式和关系的方式对数据进行汇总。
数据挖掘技术的结果通常是描述潜在模式或关系的数学模型或方程式。这些模型可以通过可视化仪表板和报告供人类决策使用,也可以通过业务规则管理系统或数据库部署用于自动决策系统。
数据挖掘可以用于监督或非监督的研究。在监督研究中,用户可以提出问题并期望得到一个答案来驱动他们的决策。非监督研究是一种纯粹的模式发现练习,在那里允许模式出现,并且随后考虑其适用于商业决策。
数据挖掘是一个泛指,包括描述性、诊断性和预测性技术:
- 描述性:例如聚类使得更容易看到数据集中的模式,比如客户之间的相似性。
- 诊断:例如决策树或分段可以显示模式存在的原因,例如组织最有利可图的客户的特点。
- 预测:如回归分析或神经网络,可以预测将来某事发生的可能性,例如预测特定说法为欺诈的概率。
在所有情况下,重要的是要考虑数据挖掘的目标,并为获取正确类型、数量和质量的数据做好准备。
3 元素
.1 需求获取
数据挖掘的目标和范围 通常是在确定的重要业务决策方面,或者在相关数据领域中进行模式发现。 这种自上而下的方法与自下而上的方法相结合,使分析师能够选择正确的数据挖掘技术。
用于自上而下的数据挖掘练习的要求定义使用正式的决策建模 1技术(参见 决策建模)。对于自下而上的模式发现练习,如果发现的见解可以放置在现有的决策模型中,则很有用,从而允许快速使用和部署这些见解。
数据挖掘练习 在敏捷环境中 是高效的。 它们帮助快速迭代、确认和部署,同时提供项目控制。
.2 数据准备:分析数据集
数据挖掘工具运行在分析数据集上。这通常是由合并来自多个表或来源的记录,形成一个单一的、宽的数据集。重复组通常被折叠为多个字段集。数据可以物理提取到一个实际文件中,也可以保留在数据库或数据仓库中的虚拟文件中,以便进行分析。分析数据集分为用于分析的一组、完全独立的一组用于验证模型是否适用于未用于开发该模型的数据,并且作为最终确认的验证集。数据量可能非常大,有时会导致需要与样本一起工作,或在数据存储中工作,这样就不必移动数据。
.3 数据分析
一旦数据可用,就会进行分析。通常会应用各种统计量并使用可视化工具来查看数据值是如何分布的、哪些数据缺失了以及各种计算特征的表现如何。这通常是数据挖掘工作中最长也是最复杂的一步,并且越来越成为自动化的焦点。数据挖掘工作的大部分力量通常来自于在数据中发现有用的特征。例如,一个特征可能是客户在过去80天内访问商店的次数。确定过去80天内的计数比过去70或90天更有用是关键。
.4 模型技术
数据挖掘技术有很多。
数据挖掘技术的一些例子包括:
- 分类与回归树(CART)、C5 等其他决策树分析技术,
- 线性回归 和逻辑回归,
- 神经网络,
- 支持向量机,以及
- 预测性(加法)评分卡。
分析数据集和计算特征输入到这些算法中,这些算法要么是无监督的(用户不知道他们在寻找什么),要么是有监督的(用户试图找到或预测特定的东西)。通常会使用多种技术来查看哪种效果最好。从建模中分离出一些数据,并用它来验证结果是否可以与在初始创建过程中未使用的数据重复。
.5 部署
一旦建立了模型,就必须部署它才能发挥效用。数据挖掘模型可以通过多种方式部署,以支持人类决策者或支持自动决策系统。对于人类用户来说,可以使用可视化隐喻或将数据字段呈现为简单的数据来展示数据挖掘结果。 许多 数据挖掘技术 可以识别潜在的业务规则,并通过业务规则管理系统进行部署。 业务规则可以像专家规则一样与决策模型相结合。 一些数据挖掘技术——尤其是那些被称为预测分析的技术——会产生数学公式。 这些也可以作为可执行的业务规则部署,也可以用于生成 SQL 或代码进行部署。 越来越多的在数据库中的部署选项允许此类模型集成到组织的数据基础架构中。
4 使用考虑情况
.1 优势
- 在分析过程中揭示隐藏的模式并创建有用的见解——帮助确定可能有用的数据,或者特定建议可能会对多少人产生影响。
- 可以集成到系统设计中,提高数据准确性。
- 可以通过使用数据来确定事实,从而消除或减少人类偏见。
.2 限制
- 不了解其工作原理而应用某些技术可能会导致错误的相关性和误用见解。
- 访问大数据以及复杂的 数据挖掘 工具集和软件可能会导致意外的滥用。
- 许多技术和工具需要专业知识才能使用。
- 一些技术在背后使用了高级数学,而一些涉众 2可能无法直接了解结果。 对透明度的感知不足可能会导致某些涉众的抵制。
- 如果决策过程不为人所知,那么数据挖掘的结果可能很难部署。