聚类迷你项目

xiaoxiao2021-03-26 48

聚类迷你项目

可在此处找到安然数据集

K-均值聚类迷你项目

在此项目中，我们会将 k-均值聚类应用于安然财务数据。当然，我们最终的目标是识别相关人员；既然我们有了已标记数据，调用 k-均值聚类这种非监督式方法就不成问题。

尽管如此，在此项目中，你仍然会获得 k-均值的一些实际操作经验并尝试特征缩放，这会让你预先了解下一课的材料。

聚类特征

可以在 k_means/k_means_cluster.py 中找到初始代码，该代码会读入电子邮件 + 财务 (E+F) 数据集，让我们为聚类做好准备。首先你将基于两个财务特征开始执行 K-means，请查看代码并确定代码使用哪些特征进行聚类。

运行代码，这将创建数据的散点图。仔细思考如果创建两个聚类，你预期会产生哪两个聚类。

部署聚类

在 financial_features 数据上部署 k-均值聚类，并将 2 个聚类指定为参数。将聚类预测存储到名为 pred 的列表，以便脚本底部的 Draw() 命令正常工作。在弹出的散点图中，聚类是否是你预期的？

使用 3 个特征聚类

向特征列表（features_list）中添加第三个特征：“total_payments”。现在使用 3 个，而不是 2 个输入特征重新运行聚类（很明显，我们仍然可以只显示原来的 2 个维度）。将聚类绘图与使用 2 个输入特征获取的绘图进行比较。是否有任何点切换群集？多少个点？这种使用 3 个牲的新聚类无法通过肉眼加以猜测——必须通过 k-均值算法才能识别它。

（你需要更改创建散点图的代码，以便容纳 3 个特征而不是 2 个，有关操作说明，请参阅初始代码中的注释。）

当你加入一些新的特征时，有测试点移动到不同的聚类中吗？ □ 没有，所有聚类都没变 □ 是的，有4个测试点的聚类变了 □ 是的，有7个测试点的聚类变了 □ 是的，有很多测试点的聚类变了

股票期权范围

在下一课中，我们将讨论特征缩放。它是一种特征预处理，应在执行某些分类和回归任务之前执行。这里只是快速预览，概述特征缩放的功能。

本例中使用的“exercised_stock_options”特征取的最大值和最小值是什么？

（注意：如果查看 finance_features，会发现有些“NaN”值已被清理并被零值取代——因此尽管那些值可能看起来像是最小值，但却具有欺骗性，因此它们更像是你不具有其相关信息而必须填入一个数字的点。对于此问题，请返回 data_dict 并查找显示的最大值和最小值，忽略所有“NaN”条目。）

练习: 股票期权范围通过观察数据列表，“exercised_stock_options”的最大值和最小值分别是多少呢？（忽略“NaN”）

薪酬范围

“salary”取的最大值和最小值是什么？

（注意：与上一个测试题中的注意事项相同。如果查看 finance_features，会发现有些“NaN”值已被清理并被零值取代——因此尽管那些值可能看起来像是最小值，但却具有欺骗性，因此它们更像是你不具有其相关信息而必须填入一个数字的点。对于此问题，请返回 data_dict 并查找显示的最大值和最小值，忽略所有“NaN”条目。）

聚类更改

下一张幻灯片上的绘图会显示你刚刚编写的聚类代码，但在本例中，我们在执行聚类之前应用了特征缩放。

我们希望你将（下一张幻灯片上）使用缩放的聚类与在聚类算法中使用*两个特征时生成的第一个聚类可视化效果进行比较。

请注意，特征范围现在已更改为 [0.0, 1.0]。这是我们所做的唯一更改。

在下一课中，你将详细了解特征缩放的含义，但现在，只需查看对聚类产生的影响–哪个/哪些点会切换它们关联的聚类？

练习: 聚类更改特征缩放化之后，哪些数据点改变了聚类？将此绘图与迷你项目开始时获取的绘图（对只两个特征进行聚类）进行比较以回答此问题。

转载请注明原文地址: https://ju.6miu.com/read-650116.html

技术

最新回复(0)