vlambda博客
学习文章列表

R语言-文本处理和词云制作


点击上方"大葱的后花园"关注我吧

接上一期,用RISmed爬下来文献之后,很多很杂。但是我们想知道研究的热点是啥,而且我们需要一眼就能知道,这时候就需要可视化。这两天我学习了下文本处理和词云制作,令人秃头,赶脚再也不爱了。我估计很长时间都不会这么不务正业了,还是看书吧,不费脑子R语言-文本处理和词云制作R语言-文本处理和词云制作


话不多说上代码,用的是上次down下来的100篇aneurysm的数据

R语言-文本处理和词云制作
R语言-文本处理和词云制作
R语言-文本处理和词云制作
R语言-文本处理和词云制作
R语言-文本处理和词云制作

于是就得出如下图

可以一眼看到我下载的100篇文章,研究热点主要是关于动脉瘤治疗和出血研究的。不太好看,可能是因为我提取了词干、没有去除一些杂字,大家可以自行去除调整。


除了看研究热点,那延展有啥用呢。我觉得可以选导师、评价人物用,根据RISmed下载有关教授的文章,然后分析,可以看他这些年的研究方向,作为选导师和评价任务的参考。


当然也可以直接用RISmed 的主题词检索,就不用文本处理了更方便。这里主要是给大家展现展现文本处理,这次我主要处理的是csv文件,大家可以学习学习处理text文件或者其他文件,在CSDN网站上有各种学习资料,墙裂推荐。


有很多时候很头秃,不是因为其他原因,是因为基础知识不扎实。真是基础不牢,地动山摇。


老规矩上模板:回复“wordcloud”即可获取代码


P.S. 这里我没有制作个性化词云,letterCould啊,figure啊都没制作;因为折腾了一个周六也没做出来。主要是wordcloud2新版本的bug,我尝试换了个旧版本也不行,也不知道啥原因。大神门有知道的希望不吝赐教!后续我学会了会放上去。



往期推荐