王琤:当数据治理遇上ChatGPT( 三 )


如下图所示,我们对分类的描述做分词处理,然后放在向量空间进行相关运算,看字段与分类的描述的关联度,得出向量空间值,获得与字段相关度最高的数据分类推荐 。
其实,目前我们在证券包括银行行业做了很多智能安全分类分级,尤其针对人行的数据安全分类分级的行业标准,我们把这个语料库通过智能化+人工的方式做了一套训练,同时我们拥有一套1220万条的行业语料库来补充人行的这套语料库,因此,在银行业数据分类分级的首次识别率可以达到76%,加上人工优化可以达到90%,当然整个过程有自反馈的效果,也是机器自学习的过程 。