Інші платформи з MapReduce

FlinkML – це частина Apache Flink, яка є фреймворком з відкритим кодом для обробки розподілених потокових та пакетних даних [Flink]. FlinkML має мету забезпечити набір масштабованих алгоритмів ML та інтуїтивно зрозумілий API, прийнятий для розподіленої структури Flink; він містить алгоритми для тренування з вчителем, тренування без вчителя, попередньої обробки даних, рекомендацій та інші утиліти.

Flink орієнтований на роботу з великою кількістю даних з дуже низькою затримкою та високою стійкістю у розподілених системах; його основна особливість – це здатність обробляти потоки даних у режимі реального часу. Основна відмінність Spark від Flink полягає в тому, як кожен з фреймворків обробляє потоки даних. Flink – це структура обробки потокової передачі, яка може працювати з пакетними даними. Spark спочатку був розроблений для роботи зі статичними даними за допомогою своїх RDD, для обробки потоків він використовує мікросерії.

Oryx 2 від Cloudera також має шар машинного навчання. Oryx 2 – це реалізація Lambda архітектури, побудованої на Apache Spark та Apache Kafka для великомасштабного ML в реальному часі [Oryx2]; він призначений для побудови застосувань і включає пакетовані, кінцеві програми для спільної фільтрації, класифікації, регресії та кластеризації.

Oryx 2 включає наступні три рівні 1) загальний рівень Lambda архітектури для пакетних, швидкісних та обслуговуючих шарів, які не характерні для ML; 2) ML абстракція до вибору гіперпараметрів; 3) поступова реалізація тих же стандартних алгоритмів ML у вигляді застосувань (ALS, random decision forests, k-means).

KNIME (Konstanz Information Miner) – платформа для аналізу даних, звітів та інтеграції Knime AG, Швейцарія [KNIME]. Вона інтегрує різні компоненти для ML та DM через свою модульну концепцію конвеєрних даних через GUI, що дозволяє збирати вузли для попередньої обробки даних (ETL – видобуток, трансформація та завантаження), для моделювання, аналізу даних та візуалізації без або з мінімальним програмуванням.

Платформа випущена за ліцензією GNU GPLv3 з відкритим кодом та має понад 1500 модулів, широкий спектр інтегрованих інструментів та найширший вибір доступних сучасних алгоритмів. KNIME реалізований на Java, проте також підтримує обгортки, що викликають інший код, для додавання вузлів, які дозволяють запускати Java, Python, Perl та інші мови програмування; також присутня інтеграція з Weka, R, Python, Keras (DL), H2O (ML / DL), DL4J (DL, Hadoop / Spark). KNIME має значну підтримку, тобто його використовують понад 3000 організацій у понад 60 країнах.