21
Парсер Яндекс выдачи — обход капчи
Posted under Поисковики, Продвижение, работа
Раньше я уже выкладывал открытый код парсера Выдачи Яндекса. Но примерно полгода назад начались проблемы с ним. Не всегда вытягивал выдачу. И видно косяк в том что количество запросов значительно выросло. Все это время не доходили руки до него, так и работал с ошибками. Появилась свободная неделька и решил покопаться.
Первым делом переписал всю логику вытягивания выдачи, теперь парсит точнее и без погрешностей, раньше она составляла 1–2 позиции в зависимости от глубины прогона. Но иногда выбивал ошибку. Решил писать логи парс-страниц. Смеялся долго... Я всегда знал что у Яши есть капча на поиске, но никогда с ней не сталкивался, поэтому сее событие и вызвало у меня бурный смех.
Встал вопрос обхода капчи. Не поверите и тут я решил поступить как заправский лентяй. Вытягивание картинки капчи, передача в сервис определения текста, ввод его в форму. Ну гемор... Не так ли? А запустить его надо как можно быстрее, тем паче что парсер уже работает на коммерческой основе. Не ну конечно же в свободное время сделаю все по уму и начну ломать капчу, но пока все это на коленках...
И так... Обхожу капчу следующим образом. Вытягиваю страницу и проверяю на валидность, если с капчей, то делаю паузу и вытягиваю ее же повторно, так и долблю пока Яндекс не устанет. Цикла в 10 запросов в принципе обходит, но на всякий случай сделал второй цикл в 10 раз, но уже с большей задержкой до 6 минут. Это в том случае если первый цикл неудачный.
Короче говоря все тестируется... Пока не вытянул только один жирный ВЧ. Видно и у капчи Яндекса есть своя логика если на СЧ, НЧ он пробивается. Выкладывать сее творение по окончании тестирования уже не буду, возможно сделаю онлайн версию и прикручу у партнеров.
UP: Вот и геморный ключевик пробил ))) По тестам максимум парсер продалбливал Яшу с 16 раза... Не думал, что Яшу можно так пробить, но все же работает. Тестим дальше...
Popularity: 32% [?]







