В ходе мероприятия D.C. TechFair 2011, которое состоится 15 июня в
Вашингтоне, Microsoft готовится представить технологию обработки
больших массивов данных в облаке Windows Azure непосредственно из
интерфейса Microsoft Excel. Новая технология, известная как Excel
DataScope, была создана участниками команды по исследованиям в сфере
облачных вычислений (Cloud Research Engagement team) в рамках
исследовательской группы eXtreme Computing Group.
С точки зрения конечного пользователя, Excel DataScope представляет
собой лишь дополнительную ленту в интерфейсе Microsoft Excel, однако эта
лента открывает доступ к функциям по ресурсоемкой обработке данных,
которые невозможно реализовать на уровне отдельного персонального
компьютера.
«Ученые говорят о «больших данных» как о проблеме, но по сути это
идеальная возможность для применения облачных вычислений, – говорит Роджер Барга
(Roger Barga), архитектор команды Cloud Research Engagement. –
Обработка больших наборов данных в облаке — это один из важнейших
технологических сдвигов, которые нам предстоит наблюдать в течение
следующих нескольких лет».
Excel DataScope позволит исследователям загружать наборы данных в
облако и осуществлять такие аналитические процедуры как поиск
закономерностей, определение скрытых ассоциаций, обнаружение сходства и
предсказание временных последовательностей. При этом технические
процедуры, связанные с созданием виртуальных машин и резервированием
вычислительных мощностей, полностью скрыты от пользователя, который
взаимодействует только с интерфейсом Microsoft Excel. Таким образом,
исследователи и аналитики смогут запускать ресурсоемкие аналитические
процедуры, которые требуют использования десятков и даже сотен
процессоров.
«Excel сегодня является ведущим инструментом для анализа данных, –
говорит Барга. – Число лицензированных пользователей насчитывает 500
млн, и существует невероятное множество людей, которые уже умеют
пользоваться этим инструментом. В сущности, электронные таблицы
представляют собой подходящую метафору для манипулирования данными. Они
просты и поддерживают различные типы данных, и поэтому вполне могут
стать той пусковой установкой, которая выведет аналитиков к облакам».
Сплит Лента для обработки данных в Windows Azure в интерфейсе Microsoft Excel
По сравнению с суперкомпьютерами, которые часто используются
исследовательскими учреждениями для решения подобных аналитических
задач, облачные вычисления обладают как преимуществами, так и
недостатками. Разумеется, облако работает медленнее специализированного
суперкомпьютера, однако во многих случаях этот недостаток
компенсируется высокой оперативностью предоставления ресурсов в облаке:
«Как показывают наши наблюдения, хотя облако и может быть медленнее в
некоторых отношениях, оно позволяет вам получить вычислительные
мощности в то время и в тех количествах, которые вам нужны. Многие
крупные лаборатории по обработке данных в США, где используется
наиболее мощное оборудование, требуют нескольких недель времени, прежде
чем ваша задача будет принята к обработке. Таким образом, если принять
во внимание все потраченное время, то в облаке ваша задача могла бы
быть решена уже давным-давно, и к настоящему моменту вы бы могли уже
завершить написание отчета», – отмечает Барга.
Исследователь Microsoft также подчеркивают, что аналитические задачи
по обработке больших массивов данных обладают типологическим сходством в
разных научных дисциплинах и поэтому могут быть стандартизированы и
приведены к унифицированному интерфейсу: «Как выясняется, в области
аналитической обработки данных существует достаточно постоянный набор
задач, независимо от того, занимаетесь ли вы общественными дисциплинами,
инженерным проектированием или океанографией, – замечает Барга. –
Например, вам требуется кластеризация для того, чтобы посмотреть, как
можно сгруппировать данные. Вам также может захотеться ознакомиться с
отклонениями и провести регрессионный анализ, позволяющий выяснить
превалирующие тренды. Мы посчитали, что если мы реализуем дюжину
наиболее востребованных алгоритмов, то у нас будет неплохой стартовый
набор».
Новая технология позиционируется как открытая для сторонних
исследователей, которые смогут дополнять ее собственными алгоритмами по
обработке данных.
Представители Microsoft считают, что у новой разработки есть большие
перспективы в связи с инициативой американского правительства в области
открытых данных data.gov. В частности, Microsoft планирует наладить
взаимодействие с учеными, которые хотели бы добавить новые наборы данных
на data.gov. «Но одних лишь данных недостаточно, – замечает Барга. –
Нам хотелось бы, чтобы люди предлагали аналитические инструменты,
связанные с этими наборами данных, и чтобы, попадая на data.gov, вы
могли бы найти там полезные алгоритмы, которые можно было бы применить к
опубликованным наборам данных».