Інші інструменти аналітики

Кількість фреймворків і бібліотек поєднаних з аналітичним процесом з використанням методів ML / NN / DL досить велика. Їх релевантна підмножина описана нижче.

MatLab (matrix laboratory) – це мультипарадигмене обчислювальне середовище. Він використовує пропріетарну мову програмування, розроблену MathWorks [MatLab]. MatLab досить популярний серед більш ніж 2 мільйонів користувачів в індустрії і наукових колах. З іншого боку, MatLab є пропрієтарним продуктом MathWorks, тому користувачі прив’язані до його постачальника, і подальша розробка продукту буде прив’язана до мови MatLab. Дві найбільш популярні безкоштовні альтернативи MatLab – це GNU Octave [Octave] і SciLab [SciLab].

SAS (Statistical Analysis System, система статистичного аналізу) почалася як проект для аналізу сільськогосподарських даних в Університеті штату Північна Кароліна в 1966 році [SAS]. В даний час це пропрієтарний програмний пакет, написаний на C для розширеного аналізу даних і бізнес-аналітики з більш ніж 200 компонентами. Іншим аналогічним пакетом пропрієтарного програмного забезпечення є SPSS (Статистичний пакет для соціальних наук) [SPSS]. Він був розроблений в 1968 році і був придбаний IBM в 2009 році. Альтернативою SPSS з відкритим вихідним кодом є GNU PSPP [PSPP].

R є вільним програмним середовищем для статистичних обчислень і графіки, включаючи лінійне і нелінійне моделювання, класичні статистичні тести, аналіз часових рядів, класифікацію, кластеризацію. Він компілюється і працює практично на всіх платформах UNIX, Windows і MacOS [Rproject]. R простий у використанні і  може бути розширений за допомогою пакетів. “The Comprehensive R Archive Network” пропонує більш 10000 пакетів [R-CRAN].

Python – це мова програмування, створена Гвідо ван Россумом і вперше випущена в 1991 році [Python]. Python успішно використовується в тисячах реальних бізнес-додатків по всьому світу, наприклад, Google і YouTube. Основне обґрунтування прийняття Python для використання в ML полягає в тому, що це мова програмування загального призначення для досліджень, розробок і створення програмних продуктів в малих і великих масштабах. Python має динамічну систему типів і автоматичне керування пам’яттю, з великими і вичерпними бібліотеками для наукових обчислень і аналізу даних.

NumPy – це фундаментальний пакет для наукових обчислень з Python [NumPy]. Крім очевидного наукового використання, NumPy також може бути використаний в якості ефективного багатовимірного контейнера загальних даних. Стек NumPy має користувачів, подібних до користувачів MatLab, GNU Octave і SciLab.

SciPy – це бібліотека Python з відкритим вихідним кодом, яка використовується для наукових і технічних обчислень [SciPy]. SciPy базується на об’єкті масиву NumPy і є частиною стека NumPy, який включає в себе такі інструменти, як Matplotlib, Pandas і SymPy.

Pandas – це пакет Python, що надає швидкі, гнучкі та виразні структури даних, призначені для полегшення роботи з реляційними або розміченими даними [Pandas]. Дві основні структури даних, Series (одномірні) і DataFrame (двовимірні), обробляють переважну більшість типових задач в фінансах, статистиці, соціальних науках і багатьох областях.

NLTK є провідною платформою для створення програм на Python для роботи з даними природньої мові [NLTK]. Він поставляється з набором бібліотек для обробки тексту, призначених для класифікації, токенізаціі, стемінгу, визначення тегів, парсингу та семантичного аналізу.