一、课程简介
通过学习本案例,可掌握文本去重、分词、停用词过滤、词云图绘制、朴素贝叶斯算法构建文本分类模型的主要方法和技能,并为后续相关课程学习及将来从事数据分析工作奠定基础。 垃圾短信泛滥,已经严重影响到人们正常生活、运营商形象乃至社会稳定,也是亟待解决的问题。案例通过建立合理的短信识别模型,对垃圾短信进行识别,解决运营商和手机用户等困扰。以常见文本挖掘任务文本分类为主线,分步介绍了文本预处理技术、文本向量化表示、常见文本分类器、分类模型性能评估等内容,完整介绍了文本分类的总体流程。其中文本预处理技术涉及分词原理与实现、正则表达式、停用词处理与词云绘制。
本案例的主要分析目标如下。
(1) 了解垃圾短信识别的背景知识,分析步骤和流程。
(2) 掌握Jieba分词、去停用词等文本预处理方法与应用。
(3) 掌握文本数据的向量表示方法。
(4)掌握朴素贝叶斯分类算法的原理与应用。
二、技术点
词云图、文档向量、多项式贝叶斯模型、词频统计、分词、去停用词。
三、建议前置课程