Mathematica数据可视化:[22]文本处理实战

2024-11-09 08:35:25

1、我们的目标是创建小说[爱丽斯漫游仙境]中单词频率的条形图, 所用数据集为软件自带(当然是英文) . 当然第一步就是将文本数据导入, 然后划分成单个的字符. 不过这里有个小技巧, 就是在导入之前, 先查看一下文本都有那些属性, 可以发现一个非常有帮助的属性 "Words" 格式导入, 这样做的话, 可以节省大量的自己来划分单词的时间了.

Mathematica数据可视化:[22]文本处理实战

3、再来将停用词删除, 看看结果如何, 会出现什么异常问题.

Mathematica数据可视化:[22]文本处理实战

5、现在再从 temp2 中删除掉这些停用词. 请注意, 这里用的DeleteCases 普通的模式处理函数.

Mathematica数据可视化:[22]文本处理实战
猜你喜欢