专利分析工具概述(3)数据挖掘
数据挖掘
数据挖掘工具越来越多。 以下是一些引起我们注意的工具。
RStudio
一个非常强大的工具,用于处理数据并使用R可视化数据,然后进行编写(本章以及整个《手册》完全由Rmarkdown与RStudio编写)。虽然使用R的学习曲线可能会令人生畏,但要付出大量努力才能用好. 通过教程, DataCamp,网络研讨会,R-Bloggers和Stack Overflow的资源, 以及免费的大学课程,例如著名的John Hopkins大学在Coursera 上开设的R编程课程。的确,与Python一样,对不同级别的用户也有如此之多的支持,以至于在使用R和RStudio时很难感到孤独。
(译者注, 也请考虑使用Python, 译者对R不熟, 对教程中的R部分暂时不做翻译. )
要开始使用R,请按照这些说明 为您的平台下载RStudio,并确保从提供的链接中安装R。
如果您完全不熟悉R,那么DataCamp 是一个不错的起点。 免费的John Hopkins大学Coursera上的R编程课程也非常好。 John Hopkins大学(John Hopkins University)课程随附有Swirl教程软件包,可以在安装R后使用`install.packages("swirl")
安装。
在编写本手册时,我们主要侧重于使用R开发资源。但是,我们将强调Python可能对您的需求也很重要。 有关R和Python的优缺点的最新讨论,请参见关于“数据科学大战”的Datacamp文章以及随附的出色信息图
(译者注: 那篇文章写于2015年末. 到2019年时, Python在机器学习工具包上的优势非常明显.)
RapidMiner Studio
带有免费服务和各种分层的付费计划。 RapidMiner专注于机器学习,数据挖掘,文本挖掘和分析。
KNIME
一个开放的数据挖掘平台。
Python中的其他数据挖掘工具(例如WEKA和NLTK )将在后面介绍。 如果您想探索其他数据挖掘软件,请看此文章 。