机器学习端到端过程;
机器学习概念的由来
机器学习(MachineLearning)这一概念最早由阿瑟·萨缪尔(ArthurSamuel,美国)创造和提出,阿瑟·萨缪尔也被称为“机器学习之父”。1952年萨缪尔在IBM701计算机上开发出了自主学习型的跳棋程序,在1956年2月24日,萨缪尔的下棋程序和人类的西洋跳棋冠军进行公开对抗,比赛通过电视实况转播,人类棋手最终输给了电脑。自此“机器学习”这一概念得到了初步的确立与普及。;
机器学习的应用场景十分广泛
机器学习技术广泛地应用于个性化推荐、计算机视觉、自然语言处理、信用评估和风控等应用场景,并已经全面地渗透到我们生
活、工作的方方面面。
机器学习技术已经渗透到我们生活、工作的方方面面;
人工智能
人工智能是计算机具有像人类一样智能的愿望,实现该愿望的路径有多种,机器学习是其中一种。
机器学习
机器学习是实现人工智能的一条技术路线,也是取得进展最大的路线
·决策树
·逻辑回归
·支持向量机
·集成学习·聚类
...
.;
机器学习的类别
机器学习是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的方法,可以分为监督学习、无监督学习和强化学
习三种类型。
监督学习无监督学习强化学习;
机器学习的本质是通过对历史数据的学习,自动识别和发现数据中的规律和知识,并利用学习得到的规律和知识对未知数据进行预测的一个过程。简而言之,机器学习让计算机能从数据中“训练”,并预测未知的一种方法。;
直观地理解机器学习
如同人类认识事物的过程一样,人通过观察不同的事物的关键特征和差异点,学习得到区分事物的知识,并将知识应用到日常生
活中。机器学习是通过喂给计算机大量的历史数据,让计算机自动从数据中去学习,并利用学习得到的知识进行预测。
例:人类学习的过程一学习如何区分翘嘴、红尾和青梢三种鱼机器学习;
1明确业务问题;
明确业务问题:明确是分类、回归、聚类还是降维问题
按照机器学习解决的问题类型来分,可以分为分类、回归、聚类和降维四大类。在开始机器学习建模之前,首先要明确业务问题是什么,不同类型的业务问题,所选择使用的机器学习方法也是不同的。
最为常见的四大机器学习问题;
业务规则;
数据准备:设计变量,明确要提取哪些数据
在明确业务问题之后,着手数据的准备工作。可以从业务相关性和技术可获得性两个方面来设计变量,一方面从业务层面尽可能全面地考虑变量,考虑的越全面越好,另一方面从技术层面考虑数据的实际可获得性,剔除肯定不具备获取条件的变量。两个维度综合考虑,最终形成数据准备阶段所需的变量清单。;
数据准备:数据质量是机器学习建模的前提
基于前面设计的变量清单进行数据提取时,这是一个极易出错的环节,一个细微的代码错误可能导致截然不同的数据结果。因此在拿到数据之后,对数据质量的检查是非常重要的一环,可以从宏观和微观两个视角对数据质量进行全面的检查。
garbagein,garbageout!确保数据质量是机器学习建模的基础和前提!;
特征工程:起到特征提取和数据转换两大作用
特征工程是机器学习过程中很重要的一个环节,原始数据不能直接输入到机器学习模型中,需要经过特征工程这个处理过程,它从原始数据中提取能够更好地表示业务问题的特征,并将数据转换为机器学习模型能够处理的形式,特征工程主要有转换和提取两大作用。;
变量类型
数值变量分类变量文本变量;
特征工程:数据标准化
数据标准化是将原始变量转换为均值为0,方差为1的新变量的方法。并不是所有的机器学习模型都需要对数据进行标准化,对于
涉及到距离计算的模型(例如SVM、聚类等),通常需要数据标准化;对于决策树、随机森林等树型算法则不需要数据标准化。;
特征工程:变量分箱
数据分箱是一种将连续型数值型变量转换为离散型变量的一种方法,有提高模型稳定性、降低过拟合风险等作用,常见的数据分
箱包括等宽/等频分箱、自定义分箱、有监督分箱等方式。;
特征工程:one-hot编码和虚拟编码
分类变量中的类别通常不是数值型的,需要一