机器学习端到端过程.pptx

基本信息

文件名称：机器学习端到端过程.pptx

文件大小：5.04 MB

总页数：40 页

更新时间：2025-06-16

总字数：约3.97千字

文档摘要

机器学习端到端过程;

机器学习概念的由来

机器学习(MachineLearning)这一概念最早由阿瑟·萨缪尔(ArthurSamuel,美国)创造和提出，阿瑟·萨缪尔也被称为“机器学习之父”。1952年萨缪尔在IBM701计算机上开发出了自主学习型的跳棋程序，在1956年2月24日，萨缪尔的下棋程序和人类的西洋跳棋冠军进行公开对抗，比赛通过电视实况转播，人类棋手最终输给了电脑。自此“机器学习”这一概念得到了初步的确立与普及。;

机器学习的应用场景十分广泛

机器学习技术广泛地应用于个性化推荐、计算机视觉、自然语言处理、信用评估和风控等应用场景，并已经全面地渗透到我们生

活、工作的方方面面。

机器学习技术已经渗透到我们生活、工作的方方面面;

人工智能

人工智能是计算机具有像人类一样智能的愿望，实现该愿望的路径有多种，机器学习是其中一种。

机器学习

机器学习是实现人工智能的一条技术路线，也是取得进展最大的路线

·决策树

·逻辑回归

·支持向量机

·集成学习·聚类

...

机器学习的类别

机器学习是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的方法，可以分为监督学习、无监督学习和强化学

习三种类型。

监督学习无监督学习强化学习;

机器学习的本质是通过对历史数据的学习，自动识别和发现数据中的规律和知识，并利用学习得到的规律和知识对未知数据进行预测的一个过程。简而言之，机器学习让计算机能从数据中“训练”,并预测未知的一种方法。;

直观地理解机器学习

如同人类认识事物的过程一样，人通过观察不同的事物的关键特征和差异点，学习得到区分事物的知识，并将知识应用到日常生

活中。机器学习是通过喂给计算机大量的历史数据，让计算机自动从数据中去学习，并利用学习得到的知识进行预测。

例：人类学习的过程一学习如何区分翘嘴、红尾和青梢三种鱼机器学习;

1明确业务问题;

明确业务问题：明确是分类、回归、聚类还是降维问题

按照机器学习解决的问题类型来分，可以分为分类、回归、聚类和降维四大类。在开始机器学习建模之前，首先要明确业务问题是什么,不同类型的业务问题，所选择使用的机器学习方法也是不同的。

最为常见的四大机器学习问题;

业务规则;

数据准备：设计变量，明确要提取哪些数据

在明确业务问题之后，着手数据的准备工作。可以从业务相关性和技术可获得性两个方面来设计变量，一方面从业务层面尽可能全面地考虑变量，考虑的越全面越好，另一方面从技术层面考虑数据的实际可获得性，剔除肯定不具备获取条件的变量。两个维度综合考虑，最终形成数据准备阶段所需的变量清单。;

数据准备：数据质量是机器学习建模的前提

基于前面设计的变量清单进行数据提取时，这是一个极易出错的环节，一个细微的代码错误可能导致截然不同的数据结果。因此在拿到数据之后，对数据质量的检查是非常重要的一环，可以从宏观和微观两个视角对数据质量进行全面的检查。

garbagein,garbageout!确保数据质量是机器学习建模的基础和前提!;

特征工程：起到特征提取和数据转换两大作用

特征工程是机器学习过程中很重要的一个环节，原始数据不能直接输入到机器学习模型中，需要经过特征工程这个处理过程，它从原始数据中提取能够更好地表示业务问题的特征，并将数据转换为机器学习模型能够处理的形式，特征工程主要有转换和提取两大作用。;

变量类型

数值变量分类变量文本变量;

特征工程：数据标准化

数据标准化是将原始变量转换为均值为0,方差为1的新变量的方法。并不是所有的机器学习模型都需要对数据进行标准化，对于

涉及到距离计算的模型(例如SVM、聚类等),通常需要数据标准化；对于决策树、随机森林等树型算法则不需要数据标准化。;

特征工程：变量分箱

数据分箱是一种将连续型数值型变量转换为离散型变量的一种方法，有提高模型稳定性、降低过拟合风险等作用，常见的数据分

箱包括等宽/等频分箱、自定义分箱、有监督分箱等方式。;

特征工程：one-hot编码和虚拟编码

分类变量中的类别通常不是数值型的，需要一