Высокие технологии постепенно становятся доступными рядовому потребителю и анализ данных не является исключением. Культура data driven* признается must have* уже на уровне школьных проектов и даже домохозяйки делятся data driven insights* в инстаграм. Для большинства из нас data mining* стал совершенно обычным делом.
Собрать информацию, проанализировать её и результаты изложить нормальным человеческим языком - так выглядит процесс анализа данных. Речь не о крупных проектах с терабайтами данных и drill-down dashboards*. Для всех обычных задач достаточно несколько (тысяч или сотен - не так важно) цифр и пара - тройка обычных графиков.
Для обычных задач стандартом является MS Excel.
Если выбор Excel как инструмента анализа достаточно очевиден, то со сбором в интернете данных для анализа такой определенности нет. Все существующие возможности работы с данными основаны на трех способах:
- Собирать данные и заполнять документы руками,
- отдавать на аутсорс или
- программировать самостоятельно
- такой выбор предлагают сотни существующих сервисов.
Сам себе data scientist*
Однажды ручной труд сделал из обезьяны человека. Но сегодня он делает обезьяну из специалиста с высшим образованием. Это в большинстве случаев то неизбежное, что делается вынужденно - от безысходности. Очевидно, это слишком неквалифицированный труд даже для человека со средне-специальным образованием. А привлекать в штат совсем необразованных специалистов неудобно по причинам другого характера.
Неудобство ручного сбора данных может привести к тому, что решения начинают приниматься "по интуиции", "как в прошлый раз", "как у других" с заранее известным результатом, который все стараются избежать. Никто не бегает с закрытыми глазами по пересеченной местности и необходимость тратить много квалифицированного времени на простейшую задачу сбора рыночных данных взрывает мозг каждый день.
Я у мамы программист
Программирование требует слишком много усилий для поддержания актуального навыка. Слишком стремительно развиваются языки и плодятся фреймворки. Это точно не массовая отрасль знаний, чтобы ей владел каждый на приемлемом уровне. Есть миллион причин для того, чтобы большинство не освоило программирование на уровне уверенного парсинга данных в интернете. Большинство хотят заниматься своим делом и не браться за то, в чем мало понимают.
Однако, программирование простейшей автоматизации очень востребовано. Этот навык повышает производительность в десятки и сотни раз. Поэтому все хотят, чтобы его персонал умел программировать - это почти гарантирует успех! Герман Греф даже отказался брать на работу юристов, если они не умеют программировать автоматизацию своего труда.
Программирование не для всех, это надо принять.
Проблема так велика, что появилась целая отрасль "недопрограммирования", где предлагается облегчить программирование разными способами. Но оказалось, что и это подходит далеко не всем.
Первые два способа работы с данными очень плохи, поэтому многие выбирают меньшее зло:
Аутсорс
Казалось бы, что может пойти не так, если задачу выполняют профессионалы на аутсорсе? Бывалые со вздохом ответят: примерно все. Достоинства и недостатки аутсорсинга неоднозначны, им посвящено множество опубликованных обзоров.
Обобщая все найденное в ответах яндекса по вопросу "Аутсорсинг: за и против", можно выделить две ключючевые проблемы:
- Замена ручной обработки данных на аутсорс фактически означает замену работника по работе с данными на работника по работе с аутсорсерами, так что выгода не очевидна,
- Аутсорсинг может выручить пару раз, но в долгосрочной перспективе его общая стоимость (включая накладные и сопутствующие издержки) может значительно превысить стоимость штатного специалиста.
Короче говоря - аутсорсинг тоже далеко не для всех.
Старое проверенное решение
Общеизвестный способ получить качественную услугу без косвенных издержек и по невысокой цене давно у всех на слуху. SaaS (ПО как сервис), PaaS (платформа как сервис), DaaS (данные как сервис) - у облачных решений нет присущих аутсорсингу неустранимых дефектов.
- Общение с облачным сервисом требует значительно меньше времени, чем общение с аутсорсером. Эту функцию может выпонять тот же человек, который непосредственно проводит анализ данных.
- Работа с облачным сервисом не требует накладных и сопутствующих расходов. Часовые пояса не имеют значения, не нужно звонить и писать письма,
Новое решение на основе старого
Хорошо бы еще подключить облачный сервис прямо в Excel. Но тут возникает два вопроса:
- Excel ведь не облачный, разве его возможно скрестить с браузером?
- Если нет интернета, то как работать?
Первый вопрос чисто технический и решается также чисто технически: в Excel устанавливается надстройка (Add-In), которая содержит только средства для общения с пользователем и для получения кода из облака. Эта надстройка добавляет в меню Excel кнопки для управления облачными функциями. А облачные функции существуют отдельно от надстройки, используя ее как интерфейс для общения с пользователем и управления Excel.
Ответ на второй вопрос уже отработан облачными решениями: код сохраняется на компьютере до следующего выхода в интернет. Нет интернета - работает сохраненная версия, есть интернет - сохраненная версия обновляется.
Это и есть Робастик!
Он сделан для типичных небольших аналитических задач:
- Это облачный сервис, который добавляет новые возможности в меню Excel,
- Собирает данные с интернет-сайтов (веб-парсинг, краулинг),
- Добавляет в Excel графики на карте и другие типы графиков на веб-технологии (сейчас это временно отключено),
- Автоматически заполняет шаблонные документы Word результатами проведенного в Excel анализа.
Если у вас есть такие задачи - Робастик сделан именно для вас.
Скачать, установить и запустить Робастик можно без регистрации и СМС.
Присоединяйтесь!
*Словарик
data driven - принимать решения на основе данных
Слэнг "маст хэв" означает обязательность чего-либо
data driven insights - знания, полученные из анализа данных
data mining - добыча данных
dashboard - умный отчет с удобным представлением данных
drill-down - интерактивное представление исходных данных
Data Scientist — эксперт по анализу данных