面向深度学习的文本预处理方式
发布时间:2021-11-03 21:27:31 所属栏目:数码 来源:互联网
导读:如今,深度学习引起了人们极大的兴趣,尤其是自然语言处理(NLP)。不久前,Kaggle公司开展一场自然语言处理(NLP)竞赛,其名称为Quora不真诚问题挑战(Quora Question insincerity Challenge)。这个竞赛指出解决文本分类问题,其目的是通过竞赛以及Kaggle专家
如今,深度学习引起了人们极大的兴趣,尤其是自然语言处理(NLP)。不久前,Kaggle公司开展一场自然语言处理(NLP)竞赛,其名称为“Quora不真诚问题挑战(Quora Question insincerity Challenge)”。这个竞赛指出解决文本分类问题,其目的是通过竞赛以及Kaggle专家提供的宝贵内核,使其变得更容易理解。
首先从解释竞赛中的文本分类问题开始。
文本分类是自然语言处理中的一项常见任务,它将不确定长度的文本序列转换为文本类别。那么文本分类有什么作用?可以:
了解评论时的情绪
在Facebook等平台上查找有害评论
在Quora上查找不真诚的问题,而目前Kaggle公司正在进行的一项竞赛
在网站上查找虚假评论
确定文本广告是否会被点击
现在,这些问题都有一些共同点。而从机器学习的角度来看,这些问题本质上是相同的,只是目标标签发生了变化,并没有其他的变化。话虽如此,业务知识的添加可以帮助使这些模型更加健壮,这就是在预处理数据以进行测试分类时想要包含的内容。
虽然本文关注的预处理管道主要围绕深度学习,但其中大部分也适用于传统的机器学习模型。
首先,在完成所有步骤之前,先了解一下文本数据深度学习管道的流程,以便更进一步了解整个过程。
通常从清理文本数据和执行基本 事件驱动架构(EDA)开始。在这里,尝试通过清理数据来提高数据质量。还尝试通过删除词汇表外(OOV)的单词来提高Word2Vec嵌入的质量。前两个步骤之间通常没有什么顺序,并且通常在这两个步骤之间来回切换。![]() (编辑:马鞍山站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- 轻薄机身,轻奢配色,荣耀X30i给你带来两千元以内的均衡体会
- 三年三代探索,OPPO新一代智能眼镜将要发布,AR功能新升级?
- Pixel 6系列迎来第一个第三方定制ROM-ProtonA
- 看三星Galaxy S22 Ultra如何为你打造踏春郊游新体验
- 华硕推出新品 全球第一款120Hz高刷OLED屏笔记本来了
- 苹果下线PowerbeatsBeats Solo Pro等耳机 对几款Beats临时降
- Moto G32欧洲上市骁龙680芯片组+6.5英寸90Hz LCD屏
- 华为发布全球首款i9 Evo认证笔记本 极致生产力再突破
- 美国松口了?时隔一年,ASML就光刻机向中企表态 努力供给一
- 会有刘海屏吗?曝15英寸MacBook Air将于2023年推出
站长推荐