机器学习和数据挖掘100问

xiaoxiao2023-05-26 17

前言：虽然说我的研究方向是数据挖掘，但是一直以来对整个机器学习和数据挖掘的东西没较为清晰的认识，估计有很多小白和新手和我有类似的问题吧，借此校招之际，对机器学习和数据挖掘领域的知识进行一定的汇总，这一篇主要提出问题，因为其中的每一个问题可能会需要很大精力去解答和理解，所以将会在后续询问高人或者查阅书籍论文之后将答案进行逐一汇总。问题按照模块进行提出，长期更新，望各位多多指点。

一、基本概念

** 机器学习是一个大领域，它包含哪些子领域呢？机器学习和数据挖掘的关系是什么？机器学习中的所说的训练过程指的是什么？机器学习可以应用到哪些工业领域？什么叫监督学习和无监督学习？深度学习和传统的机器学习有什么关系？什么叫训练数据和测试数据？如何获取数据？如何处理缺失数据？什么是结构化数据和非结构化数据？什么是连续数据和离散数据？如何将特征进行数值化？常见的属性二元化的方法有哪些？数据分布不平衡怎么处理？常见的采样方法有哪些？简述gibbs采样过程？图像、图像、语音、视频数据在数据库以什么形式存储？什么叫数据清洗,为什么要进行数据清洗？常见的分类模型和聚类模型有哪些，二者区别? 什么是生成式模型和判别式模型，举例？什么是损失函数？损失函数的选择有何标准？举出常见的损失函数？什么是批量梯度下降和随机梯度下降？简述牛顿法？什么是拉普拉斯平滑和拉普拉斯对偶？如何降维？什么是最大似然估计？什么叫先验、似然？什么叫过拟合，如何避免过拟合？什么是最大后验概率？什么叫信息熵、信息增益、信息增益率、基尼指数？常见的距离度量方法有哪些？什么是准确率、召回率、F值、ROC曲线？

二、模型和算法

决策树

简述决策树的分类过程？决策树的损失函数是什么？决策树的输入数据有什么要求？分裂节点的属性选择如何选取？决策树适用于什么场景？决策树有什么优缺点？常见的实现决策树的算法有哪些？会不会产生过拟合？如何避免过拟合？常见的剪枝方法有哪些？当高维度数据或者大数据量的时候出现什么问题？

随机森林

简述随机森林的分类过程？什么叫袋外误差？大约有多少数据不能被取到？特征的随机选择遵循什么原则？分裂节点的属性如何选择？损失函数是什么？会不会产生过拟合？构造决策树的数量如何定？每棵树的深度如何定？决策树需不需要剪枝？最后投票的时候如何投票？随机森林适用于什么场景？当高维度数据或者大数据量的时候出现什么问题？随机森林和GBDT有什么区别？

SVM

简述SVM的分类过程？推到SVM,讲一下对偶问题是什么？什么是支持向量？如何选取？什么是最大函数间隔和最大几何间隔？核函数的作用是什么，核函数的思想？举例常用的核函数以及适用场景？ SVM的中有哪些参数？ SVM会过拟合吗,如何避免过拟合？适合于小数据量还是大数据量？适合于高维数据还是低维数据？如何处理线性不可分的数据？损失函数是什么？当高维度数据或者大数据量的时候出现什么问题？ SVM如何处理多分类问题？ SVM有什么优缺点？什么是松弛因子,为什么引入松弛因子？

朴素贝叶斯

简述朴素贝叶斯过程？公式推导贝叶斯分类适用于什么样的数据？有什么优缺点？为何要引入拉普拉斯平滑？多分类怎么办？高维度数据下会发生什么？当数据量较大时候是否合适？为什么？朴素贝叶斯和贝叶斯网络的关系是什么？

Logistic回归

简述Logistic回归过程？公式推导Logistic回归？为什么选用S函数？适用于什么样的数据？有什么优缺点？多分类怎么办？当数据量较大时候是否合适？为什么？高维度数据下会发生什么？

k-means 简述k-means过程？公式推导k-means？ k如何选择? 距离度量选用什么方法？初始的聚类中心如何选择？有什么优缺点？适用于什么样的数据？当数据量较大时候是否合适？为什么？高维度数据下会发生什么？如何判断收敛？

推荐算法简述协调过滤推荐算法协调过滤分为哪几种？协调过滤中如何计算相似度？有什么优缺点？适用于什么样的数据？当数据量较大时候是否合适？为什么？高维度数据下会发生什么？什么是冷启动？如何解决冷启动？什么是推荐准确率和召回率？数据稀疏怎么解决？投票的时候采用什么原则？ Top K中的K如何选择？

自然语言处理简述文本分类过程分词原理是什么？什么是前向匹配算法和后向匹配算法？简述维特比算法？词向量的提取有哪些方法？ HMM过程是什么？简述TF-IDF 简述LDA

三平台和环境

hadoop和spark的区别是什么？ hadoop和spark是如何保证容错的？ RDD是什么？

待续。。。。。。。

转载请注明原文地址: https://ju.6miu.com/read-1260653.html

最新回复(0)

机器学习和数据挖掘100问

一、基本概念

二、模型和算法

三 平台和环境

三平台和环境