首页

Spark机器学习.pdf

标签:spark     发布时间:2023-07-26   
  • 云盘下载:
  • [提取码:mq2s]
       ( 需积分:4  )

5_2023-07-27_00-48-12.jpg

第 1 章 Spark 的环境搭建与运行.................1@b@1.1 Spark 的本地安装与配置...........................2@b@1.2 Spark 集群..................................................3@b@1.3 Spark 编程模型..........................................4@b@1.3.1 SparkContext 类与@b@SparkConf 类 ...............................4@b@1.3.2 Spark shell......................................5@b@1.3.3 弹性分布式数据集.........................6@b@1.3.4 广播变量和累加器.......................10@b@1.4 Spark Scala 编程入门 ..............................11@b@1.5 Spark Java 编程入门................................14@b@1.6 Spark Python 编程入门............................17@b@1.7 在 Amazon EC2 上运行 Spark .................18@b@1.8 小结 .........................................................23@b@第 2 章 设计机器学习系统...........................24@b@2.1 MovieStream 介绍 ...................................24@b@2.2 机器学习系统商业用例...........................25@b@2.2.1 个性化..........................................26@b@2.2.2 目标营销和客户细分...................26@b@2.2.3 预测建模与分析...........................26@b@2.3 机器学习模型的种类...............................27@b@2.4 数据驱动的机器学习系统的组成............27@b@2.4.1 数据获取与存储...........................28@b@2.4.2 数据清理与转换...........................28@b@2.4.3 模型训练与测试回路...................29@b@2.4.4 模型部署与整合...........................30@b@2.4.5 模型监控与反馈...........................30@b@2.4.6 批处理或实时方案的选择 ...........31@b@2.5 机器学习系统架构 ..................................31@b@2.6 小结 .........................................................33@b@第 3 章 Spark 上数据的获取、处理与@b@准备....................................................34@b@3.1 获取公开数据集 ......................................35@b@3.2 探索与可视化数据 ..................................37@b@3.2.1 探索用户数据 ..............................38@b@3.2.2 探索电影数据 ..............................41@b@3.2.3 探索评级数据 ..............................43@b@3.3 处理与转换数据 ......................................46@b@3.4 从数据中提取有用特征...........................48@b@3.4.1 数值特征......................................48@b@3.4.2 类别特征......................................49@b@3.4.3 派生特征......................................50@b@3.4.4 文本特征......................................51@b@3.4.5 正则化特征 ..................................55@b@3.4.6 用软件包提取特征.......................56@b@3.5 小结 .........................................................57@b@第 4 章 构建基于 Spark 的推荐引擎..........58@b@4.1 推荐模型的分类 ......................................59@b@4.1.1 基于内容的过滤 ..........................59@b@4.1.2 协同过滤......................................59@b@4.1.3 矩阵分解......................................60@b@4.2 提取有效特征..........................................64@b@4.3 训练推荐模型..........................................67@b@4.3.1 使用 MovieLens 100k 数据集@b@训练模型......................................67@b@4.3.2 使用隐式反馈数据训练模型 .......68@b@4.4 使用推荐模型..........................................69@b@4.4.1 用户推荐......................................69@b@4.4.2 物品推荐......................................72@b@4.5 推荐模型效果的评估 ..............................75@b@2 目 录@b@4.5.1 均方差..........................................75@b@4.5.2 K 值平均准确率...........................77@b@4.5.3 使用 MLlib 内置的评估函数 .......81@b@4.6 小结 .........................................................82@b@第 5 章 Spark 构建分类模型 .......................83@b@5.1 分类模型的种类......................................85@b@5.1.1 线性模型......................................85@b@5.1.2 朴素贝叶斯模型 ..........................89@b@5.1.3 决策树..........................................90@b@5.2 从数据中抽取合适的特征.......................91@b@5.3 训练分类模型..........................................93@b@5.4 使用分类模型..........................................95@b@5.5 评估分类模型的性能 ..............................96@b@5.5.1 预测的正确率和错误率...............96@b@5.5.2 准确率和召回率 ..........................97@b@5.5.3 ROC 曲线和 AUC........................99@b@5.6 改进模型性能以及参数调优.................101@b@5.6.1 特征标准化................................101@b@5.6.2 其他特征....................................104@b@5.6.3 使用正确的数据格式.................106@b@5.6.4 模型参数调优 ............................107@b@5.7 小结 .......................................................115@b@第 6 章 Spark 构建回归模型 .....................116@b@6.1 回归模型的种类....................................116@b@6.1.1 最小二乘回归 ............................117@b@6.1.2 决策树回归................................117@b@6.2 从数据中抽取合适的特征.....................118@b@6.3 回归模型的训练和应用.........................123@b@6.4 评估回归模型的性能 ............................125@b@6.4.1 均方误差和均方根误差.............125@b@6.4.2 平均绝对误差 ............................126@b@6.4.3 均方根对数误差 ........................126@b@6.4.4 R-平方系数 ................................126@b@6.4.5 计算不同度量下的性能.............126@b@6.5 改进模型性能和参数调优.....................127@b@6.5.1 变换目标变量 ............................128@b@6.5.2 模型参数调优 ............................132@b@6.6 小结 .......................................................140@b@第 7 章 Spark 构建聚类模型..................... 141@b@7.1 聚类模型的类型.................................... 142@b@7.1.1 K-均值聚类................................ 142@b@7.1.2 混合模型.................................... 146@b@7.1.3 层次聚类.................................... 146@b@7.2 从数据中提取正确的特征..................... 146@b@7.3 训练聚类模型........................................ 150@b@7.4 使用聚类模型进行预测 ........................ 151@b@7.5 评估聚类模型的性能 ............................ 155@b@7.5.1 内部评价指标............................ 155@b@7.5.2 外部评价指标............................ 156@b@7.5.3 在 MovieLens 数据集计算@b@性能 ........................................... 156@b@7.6 聚类模型参数调优................................ 156@b@7.7 小结....................................................... 158@b@第 8 章 Spark 应用于数据降维................. 159@b@8.1 降维方法的种类.................................... 160@b@8.1.1 主成分分析................................ 160@b@8.1.2 奇异值分解................................ 160@b@8.1.3 和矩阵分解的关系 .................... 161@b@8.1.4 聚类作为降维的方法................. 161@b@8.2 从数据中抽取合适的特征..................... 162@b@8.3 训练降维模型........................................ 169@b@8.4 使用降维模型........................................ 172@b@8.4.1 在 LFW 数据集上使用 PCA @b@投影数据.................................... 172@b@8.4.2 PCA 和 SVD 模型的关系 .......... 173@b@8.5 评价降维模型........................................ 174@b@8.6 小结....................................................... 176@b@第 9 章 Spark 高级文本处理技术............. 177@b@9.1 处理文本数据有什么特别之处............. 177@b@9.2 从数据中抽取合适的特征..................... 177@b@9.2.1 短语加权表示............................ 178@b@9.2.2 特征哈希.................................... 179@b@9.2.3 从 20 新闻组数据集中提取@b@TF-IDF 特征 .............................. 180@b@9.3 使用 TF-IDF 模型 ................................. 192@b@目 录 3@b@2 @b@3 @b@4 @b@5 @b@6 @b@7 @b@8 @b@9 @b@10 @b@11 @b@12 @b@13 @b@14 @b@15 @b@16 @b@18 @b@17 @b@9.3.1 20 Newsgroups 数据集的文本@b@相似度和 TF-IDF 特征...............192@b@9.3.2 基于 20 Newsgroups 数据集使@b@用 TF-IDF 训练文本分类器.......194@b@9.4 评估文本处理技术的作用.....................196@b@9.5 Word2Vec 模型......................................197@b@9.6 小结 .......................................................200@b@第 10 章 Spark Streaming 在实时机器@b@学习上的应用 ...............................201@b@10.1 在线学习..............................................201@b@10.2 流处理..................................................202@b@10.2.1 Spark Streaming 介绍 .............202@b@10.2.2 使用 Spark Streaming 缓存和@b@容错..........................................205@b@10.3 创建 Spark Streaming 应用..................206@b@10.3.1 消息生成端 ............................207@b@10.3.2 创建简单的流处理程序 .........209@b@10.3.3 流式分析 ................................211@b@10.3.4 有状态的流计算.....................213@b@10.4 使用 Spark Streaming 进行在线学习 ...215@b@10.4.1 流回归 ....................................215@b@10.4.2 一个简单的流回归程序 .........216@b@10.4.3 流 K-均值 ...............................220@b@10.5 在线模型评估......................................221@b@10.6 小结 .....................................................224
  • ◆ 相关内容