Rambler's Top100
Статьи
Николай НОСОВ  16 сентября 2019

5G, «умные» базы данных и проблемы конского навоза

Справиться с растущими объемами выдаваемых сегодня на-гора данных помогут интегрированные с СУБД решения в области машинного обучения и технологии 5G.

Рост трафика и 5G

«Через 50 лет все улицы в Лондоне будут покрыты конским навозом на девять футов», – привел давний прогноз газеты Times директор по поддержке продаж в регионе EMEA Oracle Кристиан Томс в выступлении на Oracle Systems Advantage Forum в Москве. В 1894 году конференция по городскому планированию английской столицы выявила непреодолимую проблему – вывозящие навоз лошади сами его производили, что порождало замкнутый круг и невозможность очистить улицы. И только появление новой технологии – автомобилей – полностью решило проблему отходов жизнедеятельности лошадей.

Кристиан Томс

Роль конского навоза сегодня выполняют цифровые данные, объем которых растет экспоненциально. Каждые 7 с в Facebook ставится 365 тыс. лайков, публикуются 384 тыс. постов, генерируется 42 Гбайта данных. И это лишь в одной соцсети. Не все публикуемое по ценности относится к категории конского навоза, но все вывозится – передается через интернет. Решение проблемы – вычисления на границе сети (Edge Computing), уменьшающие объем передаваемого в дата-центры трафика, и переход к сетям пятого поколения (5G), на порядок ускоряющим передачу данных.

Преимущества 5G (Источник: Oracle)

Среди других выделенных Кристианом Томсом преимуществ сетей пятого поколения: уменьшение времени отклика, повышение безопасности и увеличение на три порядка количества обслуживаемых устройств.

«Умные» базы данных

С передачей возросшего трафика сети 5G справятся. Узким местом становятся дата-центры, нагрузка на которые также экспоненциально увеличивается. Выход, как и в случае с конским навозом, в новых технологиях, в данном случае – в периферийных вычислениях. Если сейчас в глобальной сети насчитывается 25 млрд подключенных устройств, причем 70% данных обрабатывается в публичных облаках и корпоративных дата-центрах, то, по прогнозу Oracle, в 2025 году их будет 75 млрд. 75% данных будут обрабатываться на границе сети – в удаленных офисах, заводах, микроЦОДах. В больших ЦОДах будут строиться и обучаться модели и выполняться анализ верхнего уровня, а на edge-устройствах – проводиться обработка информации в режиме реального времени и оперативный анализ на базе уже обученных моделей.

Козырем в мире 5G будут системы управления базами данных. Ведь огромные объемы данных надо хранить, обрабатывать, причем не только в ЦОДах, но и на edge-устройствах.

Павел Дубинин

И тут могут оказать помощь представленные на Oracle Systems Advantage Forum интегрированные программно-аппаратные комплексы компании Exadata, обеспечивающие возможность анализа как структурированных (Oracle Data Base), так и неструктурированных данных. «Мы предлагаем использовать для машинного обучения среду хранения данных In-Database Machine Learning, в которой все продукты для машинного обучения доступны на уровне базы данных Oracle», – пояснил ведущий консультант компании Павел Дубинин. При таком подходе нет необходимости выгружать для анализа данные, они остаются в БД Oracle; не нужно развертывать отдельную среду для построения моделей, что во многом решает и проблемы безопасности – выполняются политики, установленные в СУБД. Применяемые алгоритмы подготовки данных обеспечивают быстрое обучение, скоринг моделей и простоту их промышленного использования – результаты расчетов сразу записываются в базу данных Oracle.
Oracle Data Mining дает бизнес-аналитикам возможность в наглядном графическом интерфейсе работать с типовыми алгоритмами машинного обучения. Алгоритмы классификации (метод Байеса, логистическая регрессия, дерево решений, «случайный лес», нейронные сети, метод опорных векторов, явный семантический анализ) помогут спрогнозировать отток клиентов, установить факт поломки по показаниям датчиков. Алгоритмы регрессии и временных рядов – дать прогноз выручки, количества продаж в течение дня, месяца, года. Обнаружение аномалий позволит выявить подозрительные ситуации как отклонения от нормы, например случаи мошенничества в страховании или уплате налогов.

Набор методов обработки расширяется с помощью интегрированной в систему Oracle популярной у дата-сайентистов среды статистической обработки R, которая включает более 3 тыс. готовых пакетов для аналитики. Главное отличие от стандартной open-source-реализации в том, что все действия производятся над объектами баз данных Oracle. Администраторы БД могут запускать сохраненные R-скрипты в технологическое окно через SQL, что позволяет регулярно актуализировать информацию для систем машинного обучения. Разработчики БД могут встраивать результаты выполнения R-скриптов в приложения. Планируется интеграция в систему языка Pyton (Oracle Machine Learning for Pyton), в настоящее время идет бета-тестирование продукта.

Для неструктурированных данных предлагается использовать программно-аппаратный комплекс Big Data Appliance, разработанный совместно с компанией Cloudera. Взаимодействие блоков со структурированными и неструктурированными данными обеспечивает решение Big Data SQL, подгружающее неструктурированные данные при выполнении SQL-запросов. Взаимосвязь с локальной R-средой, Oraclе Data base и распределенным Big Data-кластером обеспечивает Oracle R Advanced Analytics for Hadoop.

Компания Oracle сама задействует интегрированные решения машинного обучения в корпоративных разработках, например при анализе текучести кадров в решении Oracle HCM Fusion или в системе безопасности реального времени Oracle Adaptive Access Manager. Сегментацию и скоринг клиентов на базе решения Oracle применяет сеть кофеен Starbucks, обработку и интерпретацию сейсморазведочных данных – «РН-КрасноярскНИПИнефть». Причем дочка «Роснефти» сначала использовала open-source-решения, но столкнулась с ограничениями по производительности и перевела систему на базы данных Oracle.

Одни эксперты рассматривают цифровые данные как нефть новой экономики. Другие резонно замечают, что основной прирост их объема идет за счет никому не нужного цифрового мусора, фотографий «котиков» и избыточной технологической информации. Истина посередине. И «цифровой навоз» может быть ценным удобрением, главное уметь его собирать и обрабатывать. И об этом стоит подумать уже сейчас.
Поделиться:
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!