Парсить Авито, ЦИАН и другие сайты Робастиком действительно очень просто. Просто – потому что не требуется изучать новую программу для парсинга, ведь все делает сам Excel.

Робастик добавляет в меню Excel кнопку для добавления ссылок, которые надо спарсить. Там же рядом и кнопка «Старт», которая запускает сам процесс. Это весь Дата Сайэнс, который надо знать для сбора данных в интернете.

Во время установки Робастик встраивает в Excel браузер Chrome. Поэтому весь процесс парсинга можно видеть непосредственно в окне браузера.

Робастик не использует Selenium и WebDriver.

По умолчанию одновременно можно парсить до 11 разных ссылок. Все они загружаются независимо и параллельно в разных экземплярах браузера. Под заказ количество одновременно загружаемых ссылок не ограничено.

Загружаемые данные сохраняются здесь же в открытый файл .xlsx. Для каждой ссылки создается своя вкладка с автоматически формируемым названием на ярлыке. В названии указывается принадлежность данных на вкладке: Авито или ЦИАН, коммерческая или жилая, название города или его id. Например, названия листов Excel могут быть Авито.Дом.yakutsk и ЦИАН.Комм.ufa4560.  Одновременно можно сохранять данные как в разные вкладки одного файла, так и в разные файлы.

Количество загружаемых записей ограничивается только доступным количеством строк на листе Excel (1 048 576 строк).

Робастик также умеет сохранять копии страницы в формате PDF. Сохраняются и расположенные на странице изображения. Эти возможности включены по умолчанию, отключить их можно в меню Настройки.

По заказу возможны любые другие действия на страницах.

Обход капчи в общем случае считается неэтичным. Если источник отдает данные без капчи с определенной скоростью, следует пользоваться предоставленной возможностью и не прибегать к техническим трюкам, вследствие которых сайт источника может испытывать перегрузки или дестабилизацию действующей модели монетизации. Следует иметь в виду, что для коммерческого сайта парсинг является бесполезной нагрузкой и злоупотребление скоростью парсинга может значительно осложнить его работу.

Это правило подходит тем, для кого парсинг одних и тех же источников является регулярной практикой. При таком подходе ежедневный сбор с одного источника 1 – 2 тысяч страниц с данными обычно покрывает потребность сбора всех вновь публикуемых на этом источнике материалов.

Регулярность сбора данных сглаживает связанную с ним нагрузку на источник.

Для проверки работоспособности парсинга в Робастике доступна загрузка некоторых разделов Авито и ЦИАН. Актуальная информация о доступных для загрузки разделах находится в Вики Робастика.

Для заказа парсинга любого сайта свяжитесь любым указанным в Контактах способом.