3.3 文本分类
主要目的是对文档(文章)的主题进行分类,比如属于经济、体育、文学等 。
解决文案分类问题,比较经典的算法是TF-IDF算法 。
TF-IDF的主要思想是:如果一个词或词组在一篇文章TF中出现频率很高,而在其他文章中很少出现,则认为这个词或词组有很好的类别区分能力,适合分类 。
不要说“NBA”这个词在一篇文章中出现的频率更高,而在其他文章中却很少出现,那么这篇多次出现“NBA”这个词的文章很可能是一篇体育文章 。
3.4 文本相似度处理
文本相似度也俗称文本距离,指的是两个文本之间的距离 。文本距离越小,相似度越高;距离越大,相似度越低 。
例如:用户输入“这件衣服多少钱”或者“这件衣服怎么卖”,都是很通俗的句子,那么如何将“衣服的价格”返回给用户呢?它基于文本相似度 。
我们需要计算“多少”、“怎么卖”和“价格”的相似度,然后根据相似度匹配最佳答案 。
应用场景:推荐、排序、智能客服、自动打标等 。解决之前关键字匹配准确的问题,识别语义,扩大应用范围 。
3.5 情绪分析
情感倾向分析主要分为情感倾向分类和观点抽取两大类 。
文章插图
1)情感倾向分类
情感取向分类是识别文本的情感取向,如:负面、正面、中性 。
例如:“这家餐厅好,服务好,价格便宜”,整句话就是好评 。
情感倾向分类对于标记用户和向用户推荐内容或服务有更好的效果 。
2)视点提取
观点提取就是从句子中提取观点 。
还是那句“这家餐厅不错,服务态度好,价格便宜”,其中“服务态度好”和“价格便宜”是意见词 。
意见提取对于建立服务或内容的评价体系具有重要意义 。
3.6 当前困难
1)不规则语言
文章插图
虽然我们目前可以总结出一些通用的规则,但是自然语言实在是太灵活了 。同一个词在不同场景下可能表达多种意思,无论是通过理解自然语言规则还是通过机器学习,都比较困难 。
2)错别字
文章插图
在处理文本的时候,你会发现很多错别字 。如何让机器知道这些错别字并改正,也是NLP的一大难点 。
3)生词
文章插图
在互联网高速发展的时代,每天都有大量的生词在互联网上产生 。如何快速发现这些新词并让机器理解它们也很重要 。
04 语音合成 (TTS)
实现TTS有两种成熟的方法:“拼接法”和“参数法” 。
4.1种拼接方法
首先准备大量语音,拼接成基本单元(音节、音素等基本单元),然后从准备好的语音中提取合成目标语音 。
4.二参数法
根据统计模型生成每时每刻的语音参数(包括基频、共振峰频率等),然后将这些参数转换成波形 。
4.3 其他方法
【解说tts定义及其使用方法tts什么意思中文翻译】郑重声明:本文版权归原作者所有,转载文章仅出于传播更多信息之目的 。如果作者信息标注有误,请尽快联系我们修改或删除,谢谢 。
- 深入解说眉心有痣的含义 眉心有痣代表什么意思
- 梦见过年是什么意思 梦见过年的解说
- 全面解说两者间的区别 2020特仑苏和普通牛奶有什么区别
- 两者定义及3大区别 速动比率和流动比率多少合适
- 瓷片电容定义及科学计算法 什么是瓷片电容
- 浅析视频码率的定义 视频码率是什么意思
- 详解两者定义及区别 什么是服务器托管什么是虚拟主机
- 全方面解说turbo技术 路由器上turbo什么意思
- 全面解说普拉达品牌 普拉达是什么国家的品牌
- 解说朝九晚五涵义 上班族朝九晚五什么意思