Mathematica数据可视化:[22]文本处理实战
1、我们的目标是创建小说[爱丽斯漫游仙境]中单词频率的条形图, 所用数据集为软件自带(当然是英文) . 当然第一步就是将文本数据导入, 然后划分成单个的字符. 不过这里有个小技巧, 就是在导入之前, 先查看一下文本都有那些属性, 可以发现一个非常有帮助的属性 "Words" 格式导入, 这样做的话, 可以节省大量的自己来划分单词的时间了.
![Mathematica数据可视化:[22]文本处理实战](https://exp-picture.cdn.bcebos.com/30601b6104a355e956053f63d22ae3efe1786800.jpg)
3、再来将停用词删除, 看看结果如何, 会出现什么异常问题.
![Mathematica数据可视化:[22]文本处理实战](https://exp-picture.cdn.bcebos.com/baab2086304861433b7f9f858febf6a75e0f5300.jpg)
5、现在再从 temp2 中删除掉这些停用词. 请注意, 这里用的DeleteCases 普通的模式处理函数.
![Mathematica数据可视化:[22]文本处理实战](https://exp-picture.cdn.bcebos.com/0da37be7340f64781e8f690dfd3e21c2bad6b500.jpg)