本作品内容为数据见文本挖掘实验报告压缩包,数据说明如下: 其中每一行代表一个邮件。 做如下问题: (1)如果数据没有清洗,请清洗数据,如果清洗了,请构建训练和测试数据集。 (2)分别提取词袋特征和IF-IDF特征,用交叉验证得分来比较多项式朴素贝叶斯、逻辑回归、支持向量机和随机森林这四类模型的性能,选择出具有较好性能的特征工程和模型。 (3)对第二问中具有较好性能的模型进行调优,用调优后的模型预测测试数据集,评价调优后的模型的性能,计算准确率、精度、召回率和F1得分,求出该模型的混淆矩阵。 (4)根据第三问中调优后, 格式为 docx, 大小1 MB, 页数为1, 请使用软件Word(2010)打开, 作品中主体文字及图片可替换修改,文字修改可直接点击文本框进行编辑,图片更改可选中图片后单击鼠标右键选择更换图片,也可根据自身需求增加和删除作品中的内容, 源文件无水印, 欢迎使用熊猫办公。 如认为平台内容涉嫌侵权,可通过邮件:tousu@tukuppt.com提出书面通知,我们将及时处理。
此作品是由熊猫办公签约设计师设计上传,熊猫办公拥有版权;未经熊猫办公书面授权,请勿作他用。人物肖像,字体及音频如需商用需第三方额外授权;
熊猫办公尊重知识产权,如知识产权权利人认为平台内容涉嫌侵权,可通过邮件:tousu@tukuppt.com提出书面通知,我们将及时处理。
熊猫办公对作品中含有的国旗、国徽等政治图案不享有权利,仅作为作品整体效果的示例展示,禁止商用。另外您必须遵循相关法律法规规定的使用范围和使用方式,禁止以任何形式歪曲、篡改。