2867人加入学习
第九届“泰迪杯”挑战赛赛前讲解
价格 免费

text classification-master

数据清洗,特殊符号对分类无意义

分词工具:jieba/hanlp/pyltp

过滤停用词

文本数值化工具:TF-IDF doc2vec  word2vec

文本特征选择:用数学方法选取最具分类信息的特征

构建模型:文本分类模型 传统机器学习方法,深度学习

模型验证、调优:优化分词、去停用词

优化特征工程、算法调优、其他算法尝试

词频矩阵:countVertorizer

多项式贝叶斯

 

[展开全文]