「首席架構師推薦」精選數據挖掘和機器學習軟體列表

  • 2019 年 10 月 11 日
  • 筆記

數據挖掘是指從大量的數據中通過演算法搜索隱藏於其中資訊的過程。

數據挖掘通常與電腦科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。[1]

數據挖掘是人工智慧和資料庫領域研究的熱點問題,所謂數據挖掘是指從資料庫的大量數據中揭示出隱含的、先前未知的並有潛在價值的資訊的非平凡過程。數據挖掘是一種決策支援過程,它主要基於人工智慧、機器學習、模式識別、統計學、資料庫、可視化技術等,高度自動化地分析企業的數據,作出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,作出正確的決策。知識發現過程由以下三個階段組成:①數據準備;②數據挖掘;③結果表達和解釋。數據挖掘可以與用戶或知識庫交互。[1]

數據挖掘是通過分析每個數據,從大量數據中尋找其規律的技術,主要有數據準備、規律尋找和規律表示三個步驟。數據準備是從相關的數據源中選取所需的數據並整合成用於數據挖掘的數據集;規律尋找是用某種方法將數據集所含的規律找出來;規律表示是儘可能以用戶可理解的方式(如可視化)將找出的規律表示出來。數據挖掘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。[1]

機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究電腦怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。

它是人工智慧的核心,是使電腦具有智慧的根本途徑。

機器學習是一門多學科交叉專業,涵蓋概率論知識,統計學知識,近似理論知識和複雜演算法知識,使用電腦作為工具並致力於真實實時的模擬人類學習方式, 並將現有內容進行知識結構劃分來有效提高學習效率。[1]

機器學習有下面幾種定義:

(1)機器學習是一門人工智慧的科學,該領域的主要研究對象是人工智慧,特別是如何在經驗學習中改善具體演算法的性能。

(2)機器學習是對能通過經驗自動改進的電腦演算法的研究。

(3)機器學習是用數據或以往的經驗,以此優化電腦程式的性能標準。

精選數據挖掘和機器學習軟體列表

A

  • Amazon Rekognition
  • Angoss
  • Anne O'Tate
  • Apache Flume
  • Apache MXNet
  • Aphelion (software)

B

  • BigDL

C

  • Caffe (software)
  • CellCognition
  • Chainer
  • Comparison of deep-learning software

D

  • DADiSP
  • Data Mining Extensions
  • Deep Web Technologies
  • Deeplearning4j
  • Distributed R
  • Dlib

E

  • Encog
  • ELKI

F

  • Feature Selection Toolbox
  • FICO
  • Fluentd
  • Folding@home

G

  • General Architecture for Text Engineering
  • Apache Giraph
  • GNU Octave
  • GraphLab
  • Gremlin (programming language)

I

  • Ilastik
  • Information Harvesting

J

  • Jubatus
  • Julia (programming language)

K

  • Keras
  • KNIME
  • KXEN Inc.

L

  • L-1 Identity Solutions
  • LanguageWare
  • Lattice Miner
  • LIBSVM
  • Linguamatics

M

  • Apache Mahout
  • Mallet (software project)
  • Maple (software)
  • Massive Online Analysis
  • MATLAB
  • MeeMix
  • Megvii
  • Microsoft Cognitive Toolkit
  • ML.NET
  • Mlpack
  • Mlpy

N

  • ND4J (software)
  • ND4S
  • NetOwl
  • Neural Designer
  • Never-Ending Language Learning

O

  • OpenNN
  • Oracle Data Mining
  • Orange (software)

P

  • Programming with Big Data in R
  • Picollator
  • Pipeline Pilot
  • Piranha (software)
  • Probabilistic Action Cores
  • PyTorch

R

  • R (programming language)
  • RapidMiner
  • Rattle GUI
  • Renjin
  • Rnn (software)

S

  • SAS (software)
  • Scikit-learn
  • Self-Service Semantic Suite
  • SenseTime
  • Shogun (toolbox)
  • Sketch Engine
  • SolveIT Software
  • Apache Spark
  • SPSS Modeler
  • Apache SystemML

T

  • Tanagra (machine learning)
  • TensorFlow
  • List of text mining software
  • Torch (machine learning)

U

  • UIMA

V

  • VIGRA
  • Vowpal Wabbit

W

  • Waffles (machine learning)
  • Weka (machine learning)
  • Wolfram Language
  • Wolfram Mathematica

X

  • XGBoost

Y

  • Yooreeka

Z

  • Zeroth (software)