常规
464人加入学习
文本挖掘和可视化案例:基于文本内容的垃圾短信分类
价格 ¥ 199.00
会员免费学 购买课程
课程介绍

一、课程简介

      通过学习本案例,可掌握文本去重、分词、停用词过滤、词云图绘制、朴素贝叶斯算法构建文本分类模型的主要方法和技能,并为后续相关课程学习及将来从事数据分析工作奠定基础。 垃圾短信泛滥,已经严重影响到人们正常生活、运营商形象乃至社会稳定,也是亟待解决的问题。案例通过建立合理的短信识别模型,对垃圾短信进行识别,解决运营商和手机用户等困扰。以常见文本挖掘任务文本分类为主线,分步介绍了文本预处理技术、文本向量化表示、常见文本分类器、分类模型性能评估等内容,完整介绍了文本分类的总体流程。其中文本预处理技术涉及分词原理与实现、正则表达式、停用词处理与词云绘制。
      本案例的主要分析目标如下。
      (1) 了解垃圾短信识别的背景知识,分析步骤和流程。
      (2) 掌握Jieba分词、去停用词等文本预处理方法与应用。
      (3) 掌握文本数据的向量表示方法。
      (4)掌握朴素贝叶斯分类算法的原理与应用。

 

二、技术点

      词云图、文档向量、多项式贝叶斯模型、词频统计、分词、去停用词。

 

三、建议前置课程

授课教师

数据挖掘与人工智能金牌讲师

课程特色

视频(14)
下载资料(1)