什么是机器学习?看完就明白了( 四 )


比如我们在面临的人群划分、或是商品标签划分,可以考虑一下聚类方法;在面对APP功能点击预测、分享预测我们可以考虑一下分类方法;面对商品购买预测我们可以考虑回归的方法等;
另一方面通过机器学习应用我们可以看到数据的重要性,要求我们产品经理能更好的利用数据,数据可以通过一些算法来解决一些预测、判断的问题 。
三、机器学习流程
人们在使用机器学习的时候,把很大的精力放在了选择算法、优化算法上面,其实算法的选择只是机器学习其中的一个步骤,但是机器学习其他的步骤也是很关键的,尤其是作为产品经理,了解这个机器学习流程也是至关重要的 。
机器学习的流程本质上就是数据准备、数据分析、数据处理、结果反馈的过程,按照这个思路,我们可以把机器学习分为如下步骤:业务场景分析、数据处理、特征工程、算法模型训练、应用服务 。下面具体介绍一下这几个步骤 。
1. 业务场景分析
业务场景分析就是将我们的业务需求、使用场景转换成机器学习的需求语言,然后分析数据,选择算法的过程 。这个是机器学习的准备阶段,主要包括以下3点:业务抽象、数据准备、选择算法 。
(1)业务抽象
业务抽象说白了就是针对于业务需求,抽象成机器学习的应用场景的问题,我们上节中讲了机器学习的分类、聚类、回归、降维的应用场景,其实业务抽象就是把我们遇到的业务需求抽象成上述应用场景 。
比如我们要做产品推荐的需求,我们要把指定的产品推荐给相应的用户,也就是如何精准营销,给用户推荐是合适的产品 。
我们抽象成机器学习的语言就是一个产品A是否要推荐给用户a,这就是一个是或者否的问题,也就是一个分类应用场景 。这就是业务抽象,就是把业务需求抽象成机器学习的应用场景 。
(2)数据准备
机器学习的基础就是数据,没有数据是无法训练模型,也就是机器是无法学习的,所以数据准备就是识别、收集、加工数据阶段 。

什么是机器学习?看完就明白了

文章插图
通过图谱我们了解到,我们能获取到的数据有机构化数据、半结构化数据、非结构化数据,机器学习同样的是这些数据,这些数据类型在知识图谱有讲解,不在赘述,这里主要讲一下作为产品经理进行数据准备时需要考虑的因素 。
1)数据字段的考虑
关于数据字段考虑就是说我们在准备数据时,无论是结构化数据、非结构化数据、半结构话数据,我们都要抽象成一个二维表,二维表表头就是这些数据的表示或是数据的名称,这个就是数据字段 。
对于数据字段涉及到两方面:
一方面就是数据字段范围,也就是我们在做业务需求的时候需要哪些字段作为机器学习参数,这跟我们做后台产品经理类似 。
做后台涉及需要进行数据项字段的设计,这些字段有业务字段、逻辑字段、系统字段等,对于机器学习字段考虑要比后台设计的字段考虑更深一些,他不仅仅是后台产生的这写数据,还包括一些过程数据、结果数据、埋点数据、转换数据(定性转定量)等,具体我们可以参考一些统计学的方法,去收集、制定机器学习的字段 。
一方面就是字段类型的判定,比如到底是字符串型的还是数值型的 。
我们做回归分析,需要的必须是数值型的,因为回归是连续变量的分析,假如你要分析性别这个字段,那么必须把他的字段值定义成数值型的,例如0和1,这样才算是连续变量,才能做回归分析,假如要做分类,我们就可以把性别的字段设定成字符串,例如男和女 。