Парсить Авито, ЦИАН и другие сайты Робастиком действительно очень просто. Просто – потому что не требуется изучать новую программу для парсинга, ведь все делает сам Excel.
Робастик добавляет в меню Excel кнопку для добавления ссылок, которые надо спарсить. Там же рядом и кнопка «Старт», которая запускает сам процесс. Это весь Дата Сайэнс, который надо знать для сбора данных в интернете.
Во время установки Робастик встраивает в Excel браузер Chrome. Поэтому весь процесс парсинга можно видеть непосредственно в окне браузера.
Робастик не использует Selenium и WebDriver.
По умолчанию одновременно можно парсить до 11 разных ссылок. Все они загружаются независимо и параллельно в разных экземплярах браузера. Под заказ количество одновременно загружаемых ссылок не ограничено.
Загружаемые данные сохраняются здесь же в открытый файл .xlsx. Для каждой ссылки создается своя вкладка с автоматически формируемым названием на ярлыке. В названии указывается принадлежность данных на вкладке: Авито или ЦИАН, коммерческая или жилая, название города или его id. Например, названия листов Excel могут быть Авито.Дом.yakutsk и ЦИАН.Комм.ufa4560. Одновременно можно сохранять данные как в разные вкладки одного файла, так и в разные файлы.
Количество загружаемых записей ограничивается только доступным количеством строк на листе Excel (1 048 576 строк).
Робастик также умеет сохранять копии страницы в формате PDF. Сохраняются и расположенные на странице изображения. Эти возможности включены по умолчанию, отключить их можно в меню Настройки.
По заказу возможны любые другие действия на страницах.
Обход капчи в общем случае считается неэтичным. Если источник отдает данные без капчи с определенной скоростью, следует пользоваться предоставленной возможностью и не прибегать к техническим трюкам, вследствие которых сайт источника может испытывать перегрузки или дестабилизацию действующей модели монетизации. Следует иметь в виду, что для коммерческого сайта парсинг является бесполезной нагрузкой и злоупотребление скоростью парсинга может значительно осложнить его работу.
Это правило подходит тем, для кого парсинг одних и тех же источников является регулярной практикой. При таком подходе ежедневный сбор с одного источника 1 – 2 тысяч страниц с данными обычно покрывает потребность сбора всех вновь публикуемых на этом источнике материалов.
Регулярность сбора данных сглаживает связанную с ним нагрузку на источник.
Для проверки работоспособности парсинга в Робастике доступна загрузка некоторых разделов Авито и ЦИАН. Актуальная информация о доступных для загрузки разделах находится в Вики Робастика.
Для заказа парсинга любого сайта свяжитесь любым указанным в Контактах способом.