По мере того, как все больше компаний хранят все больше
данных и стремятся использовать их для принятия важнейших решений, BigData
решения завоевывают огромный интерес. Технологии с открытым исходным кодом лежат
в основе многих инициатив, связанных с BigData.
Apache Hadoop
Apache Hadoop - это
фреймворк с открытым исходным кодом для создания распределенных приложений,
основной задачей которых является обработка больших объемов данных.
Разработка была инициирована Дугом Каттингом для проекта
Nutch - поисковика с открытым исходным кодом. Чтобы удовлетворить требованиям
параллельной обработки, Каттинг применил технологию MapReduce и распределенную
файловую систему. Результатом стал Hadoop.
Фреймворк был назван в честь игрушечного слоненка его сына.
Посредством MapReduce Hadoop распределяет данные по всем узлам, работающим на
стандартном аппаратном обеспечение. Сейчас Hadoop - одна из самых популярных
технологий, предназначенных для хранения структурированных, полу- и
неструктурированных данных. Hadoop распространяется на условиях лицензии Apache
License 2.0.
R
R - язык программирования с открытым исходным кодом и
программная среда для статистических вычислений и работы с графикой. R был
разработан в 1993 году Россом Айхэкой и Робертом Джентлменом в Оклендском
университете, Новая Зеландия, и быстро стал привычным инструментом для
статистического анализа крупных наборов данных.
Коммерциализацией языка занималась компания Revolution
Analytics, последовавшая примеру поддержки Linux со стороны Red Hat. R доступен под
лицензией GNU General
Public License.
Cascading
Cascading - это
программный абстрактный уровень с открытым исходным кодом для Hadoop. С его
помощью пользователи могут создавать и выполнять рабочие процессы обработки
данных на кластерах Hadoop, используя любой язык на базе JVM. Он предназначен
для скрытия сложности MapReduce-задач.
Cascading был разработан Крисом Вензелем в качестве
альтернативного API для MapReduce. Его часто используют для таргетинга, анализа
логов, извлечения веб-контента, ETL-приложений, в биоинформатике, машинном
обучении и для прогнозирования.
Компания Concurrent - которую возглавляет Вензель -
занимается финансовой поддержкой Cascading. Среди пользователей фремворка
числятся Twitter и Etsy. Cascading доступен под лицензией Apache License.
Scribe
Scribe - сервер,
разработанный Facebook и выпущенный в 2008 году. Он представляет собой систему
логирования в реальном времени. Facebook спроектировали его для решения проблем
масштабирования, а теперь используют Scribe для обработки десятки миллиардов
сообщений в день. Доступен под лицензией Apache License 2.0.
ElasticSearch
ElasticSearch
разработан Шейем Бэнноном на базе Apache Lucene и является распределенным
поисковым движком с REST-итерфейсом. Он поддерживает быстрый полнотекстовый поиск
и мультиарендность (гибкость в настройках под индивидуального пользователя).
Несколько компаний - включая StumbleUpon и Mozilla - уже внедрили
ElasticSearch. Этот поисковый сервер доступен под лицензией Apache License 2.0.
Apache HBase
HBase - нереляционная,
распределенная БД с открытым исходным кодом, написана на Java и является
аналогом Google BigTable. Работает поверх распределенной файловой системы HDFS.
Она обеспечивает отказоустойчивый способ хранения и доступа к большим объемам
разреженных данных.
HBase - одно из множества NoSQL-хранилищ, ставшее доступным
за последние несколько лет. В 2010 году Facebook выбрал HBase для создания на
ее основе платформы обмена сообщениями. Распространяется на условиях лицензии
Apache License 2.0.
Apache Cassandra
Еще один пример NoSQL-хранилища Apache Cassandra - представляет собой распределенную
систему управления базами данных, разработанную Facebook для поиска сообщений.
В 2010 году Facebook отказался от проекта в пользу HBase. Тем не менее, такие
компании, как Netflix используют Cassandra в качестве серверной базы данных для
своих потоковых сервисов. Доступна под лицензией Apache License 2.0.
MongoDB
MongoDB создана основателями
DoubleClick и является популярным NoSQL-хранилищем с открытым исходным кодом.
Хранит структурированные данные в виде JSON-документов с динамическими
структурами под названием BSON (бинарный JSON).
Огромное количество крупных компаний используют MongoDB в
своих целях (например, MTV Networks, Craigslist, Disney Interactive Media
Group, The New York Times и Etsy). Доступна под лицензией GNU Affero General
Public License, а языковые драйверы - под лицензией Apache License. Компания 10gen предлагает коммерческие лицензии на
MongoDB.
Apache CouchDB
Еще один представитель NoSQL-баз данных с открытым исходным
кодом. Apache CouchDB использует формат JSON
для хранения данных, JavaScript - в качестве языка запросов, MapReduce и HTTP -
для API.
CouchDB была создана в 2005 году бывшим разработчиком Lotus
Notes Дэмиеном Кацом, как система хранения для крупномасштабной объектной базы
данных. BBC использует решения на базе CouchDB для своих платформ динамического
контента. CouchDB доступна под лицензией Apache License 2.0.
Комментариев нет:
Отправить комментарий