一淘网站 淘宝1

导语:Yitao.com是阿里巴巴集团旗下的推广导购平台,成立于2010年 。基于阿里巴巴集团丰富的商品基础,如淘宝、天猫、朱非等,Amoy.com通过返利、红包、优惠券等丰富的促销福利为用户提供高性价比的购物体验 。是用户不可或缺的网购工具 。
本文来自陶艺产品和技术的原创分享内容,是内容梳理+自己的一些评论 。(评论为紫)本文在分析商品品类预测难点的基础上,推导出一系列商品品类预测的框架和实现,同时提出了商品品类预测推进的设想 。适合做搜索,搜索优化,想了解一些商品品类预测的同学 。
背景1.淘宝商品类目预测:是指计算机利用算法将外网上的商品归类到淘宝后台类目结构中相应类目的过程 。
在Taobao.com,品类预测业务的应用点,外网上的产品(淘宝以外的电商网站,如苏宁、当当等 。)都是通过蜘蛛/饲料获得的 。在获得这些商品的基本信息(标题、面包屑、属性描述)后,每个商品都需要链接到淘宝后台类目,作为搜索中商品类目导航、各维度统计、产品库建设的基础 。
Ps:面包屑的意思是“衣服-男装-裤子”,和这几类的意思差不多 。底部会有一些具体的术语和名词 。
干货(1)预测淘货品类的困难
淘品类预测的难点主要体现在以下几个方面:
(1)大量的类别
淘宝的产品品类是现有电商中最全的(阿里的电商产品库是目前国内最全的,一个都没有) 。基本涵盖了各种产品,从大家熟知的彩电、冰箱,到一个小群体需要的蚊拍,应有尽有,品类繁多,大大增加了分类空,增加了分类问题的复杂程度 。
不同的类别有不同的类别级别 。有的类目只有一个类目,比如手机,有的类目有多层次的类目结构,比如“书籍/杂志/报纸->:计算机/网络->:编程->: C”,层次越深,需要分类的计算量越大 。
(2)分类空不同 。
不同类别的叶类数量不同 。
有些类目的叶子类目数目较少,如“箱包皮具/女包/男包”只有3个叶子类目;有些类目的叶子类目数目很多,如“运动/瑜伽/健身/球迷用品”有800+叶子类目,叶子类目越多,这些叶子类目之间区分度越小,分类越难 。(可以理解是空间越窄,越难摆放商品,从而越难“寻找定位”搜索)
(3)不同的类别有不同的分类难度 。
比如包包皮具/热销女包/男包类,只包括包包、钱包卡套、行李箱 。这三个品类非常好区分,但是像电视机这种品类有五叶品类:LCD液晶电视、等离子电视、LED电视、3D电视等等 。
(不同类别商品的“固有属性”存在天然的分类差异)
(4)商品名称的内容多样 。
有些商品标题非常容易归类,比如“2012时尚雪纺连衣裙”,包含唯一的产品词“连衣裙”;有的包含多个产品词或品类词,如“飞利浦电视47PFL3609/93儿童锁+家长控制/睡眠定时器”,还有更复杂的标题,如标题包含易混淆的品类词或赠品等产品词,如“正品美系儿童休闲裙4T包含短裤”,既包含“短裙”,也包含“短裤”,这两种产品是不同的 。
这些情况需要不同的算法策略 。淘宝基本上包含了现实世界的各种商品 。从语言上看,这些商品包括中文、英文、繁体,有些标题包含明显的类别特征,如类别词、产品词等 。也有商品的品类基本不能通过标题和商品描述来判断 。我们对不同语言和不同类型的商品采用不同的分类算法 。(根据类别采用不同的分类算法,可以结合开发一起研究下面类别的特点来制定 。这些算法后面会提到 。)
(2)实现淘货品类的方法
主要分类算法和策略:
表示向量法、最大熵、SVM二叉分类法、直接关键词匹配等 。