数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。[1]
数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。知识发现过程由以下三个阶段组成:①数据准备;②数据挖掘;③结果表达和解释。数据挖掘可以与用户或知识库交互。[1]
数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。[1]
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具有智能的根本途径。
机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式, 并将现有内容进行知识结构划分来有效提高学习效率。[1]
机器学习有下面几种定义:
(1)机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
(2)机器学习是对能通过经验自动改进的计算机算法的研究。
(3)机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
精选数据挖掘和机器学习软件列表
A
- Amazon Rekognition
- Angoss
- Anne O'Tate
- Apache Flume
- Apache MXNet
- Aphelion (software)
B
- BigDL
C
- Caffe (software)
- CellCognition
- Chainer
- Comparison of deep-learning software
D
- DADiSP
- Data Mining Extensions
- Deep Web Technologies
- Deeplearning4j
- Distributed R
- Dlib
E
- Encog
- ELKI
F
- Feature Selection Toolbox
- FICO
- Fluentd
- Folding@home
G
- General Architecture for Text Engineering
- Apache Giraph
- GNU Octave
- GraphLab
- Gremlin (programming language)
I
- Ilastik
- Information Harvesting
J
- Jubatus
- Julia (programming language)
K
- Keras
- KNIME
- KXEN Inc.
L
- L-1 Identity Solutions
- LanguageWare
- Lattice Miner
- LIBSVM
- Linguamatics
M
- Apache Mahout
- Mallet (software project)
- Maple (software)
- Massive Online Analysis
- MATLAB
- MeeMix
- Megvii
- Microsoft Cognitive Toolkit
- ML.NET
- Mlpack
- Mlpy
N
- ND4J (software)
- ND4S
- NetOwl
- Neural Designer
- Never-Ending Language Learning
O
- OpenNN
- Oracle Data Mining
- Orange (software)
P
- Programming with Big Data in R
- Picollator
- Pipeline Pilot
- Piranha (software)
- Probabilistic Action Cores
- PyTorch
R
- R (programming language)
- RapidMiner
- Rattle GUI
- Renjin
- Rnn (software)
S
- SAS (software)
- Scikit-learn
- Self-Service Semantic Suite
- SenseTime
- Shogun (toolbox)
- Sketch Engine
- SolveIT Software
- Apache Spark
- SPSS Modeler
- Apache SystemML
T
- Tanagra (machine learning)
- TensorFlow
- List of text mining software
- Torch (machine learning)
U
- UIMA
V
- VIGRA
- Vowpal Wabbit
W
- Waffles (machine learning)
- Weka (machine learning)
- Wolfram Language
- Wolfram Mathematica
X
- XGBoost
Y
- Yooreeka
Z
- Zeroth (software)