但首先需要处理的是语言识别,识别商品的语言,确定海外购商品(英文)、繁体(繁体转简体)、简体商品,针对不同的语言采取不同的处理策略 。
(1)SVM分类法
主要商品是书吗?
这种书很特别 。从这类商品的标题来看,书籍的内容包罗万象,标题包罗万象 。甚至人们如果仅仅从标题来判断也无法正确区分,比如《毛衣编织方法大全》、《洗衣机维修手册》 。这些都是标题,但是很有可能仅仅通过标题就归类为“毛衣”和“洗衣机” 。好在每本书都有“图书批号ISBN”、“出版社”、“出版时间”等明显的信息 。使用SVM二分法将首先确定一件商品是否是一本书 。(该信息是该算法的特征因子)
(2)表示向量分类
该方法描述了一个特征对一个类别的表示能力 。
假设A是一个范畴,B是这个范畴的下一个范畴,特征F表示B范畴的能力定义为F在B中的密度与B补的密度之差(A-B) 。
b中特征f密度Pb(f )= b中包含特征f的样本数/b中样本总数,
A-B PA-B中的密度F(F)=(A-B)包括F的样本数/B总样本数 。F表征B WB(f)=1-PA-B(f)/PB(f)的能力对于取值范围小于0的部分取0 。越接近1,F代表b的能力越强,用表示向量的方法预测商品类别是S(i)=Sum(Wi(f)),F是从商品中提取的特征,可以使词unigran和Bigram特征 。特征可以来自商品标题,也可以来自商品面包屑和一些属性区文本(如描述等 。).
简单理解,就是可以在不同的“层次和路径类别”下判断商品的符合性 。
(3)最大熵方法
表示向量法类似于最大似然估计法 。其训练和分类过程简单快速 。这个表示知识你可以从淘宝的所有商品中学习 。
但这是一种经验直观的分类方法,缺乏计算特征对类别的表示能力的必要理论基础(这和AI、搜索的知识图谱是一样的,可以从业务能力和专业的角度来构建 。),而且很难解决来自多个不同来源的知识融合问题 。
为了进一步提高分类效果,引入了最大熵方法 。
最大熵方法不仅有完整的理论基础,而且可以整合不同来源的知识 。对于面向业务的问题是很好的应用场景(业务问题往往会积累各种知识) 。
在最大熵模型中,以下特征有助于分类:
【一淘网站 淘宝1】常用词汇:词语往往描述商品的类别和属性 。
类别词/产品词:这些词基本可以直接判断商品的类别 。
年龄词:对性别相关的类目(男装、女装、男鞋、女鞋)和年龄相关的类目(童装、童装、孕妇装)很有帮助 。
品牌词、型号词、系列词、货号词:有助于一些著名品牌的3C分类和商品分类 。
停用词:去掉一些无用的标点符号、服务词、推广词等 。
这些特征有的直接从商品的标题和面包屑中提取,有的则需要从商品的属性或描述中提取 。
以上特征是直接从商品中获得的,有些知识可以从其他渠道获得 。
比如商品聚类知识:商品分类是有指导的机器学习和预测过程 。
商品集群是一个无指导的过程 。通过聚类,可以将类别相似的商品聚集在一起 。每种商品所处的聚类可以作为外部知识源,倾向于将具有相同聚类的商品归属于同一类别 。
(聚类是一种非常常见和有用的方法,在推荐、数据挖掘、AI等方面都有使用 。)
例如,查询的类别知识也可以作为外部知识源 。
在搜索系统中,查询类别的知识往往可以通过统计用户对查询召回的产品的点击数据来获得 。通过计算产品是否包含一些查询或与这些查询的相似度,有助于预测产品的类别,尤其是对于那些标题较短的产品 。
(即根据搜索关键词进行预测)
与表示向量法相比,最大熵法的优势不言而喻,分类效果大大提高 。与表示向量法相比,一等品类往往提高10个百分点以上 。但是,模特训练往往需要很长时间 。训练一个50级的分类器和一台计算能力非常强的机器(24G)往往需要24小时 。
- 尚品网官方网站 尚品网官方网站下载
- 京东好还是淘宝好 京东自营店好还是京东旗舰店好
- 拼多多商家后台登录 拼多多官方网站入口
- 京东淘宝购物 京东淘宝购物衣服
- 一淘返利网 一淘返利网官方网站
- 名牌折扣网 名牌折扣网站
- 淘宝网络推广怎么做?掌握这两个技巧,淘宝推
- 800团购网站大全 装修团购网站大全
- 刷淘宝信誉平台 淘宝信誉查询平台
- 在家开店赚钱 淘宝开店赚钱不