- H Граббер 2GIS в семь строчек кода, или почему важно контролировать лимиты запросов на сервер в черновиках Из песочницы
- Как ты это сделал?
- Больше, больше данных!
- А теперь распаралеллить!
- Парсер 2 гис не работает
- Скачать Парсер 2Gis + crack (keygen)
- Wlad007
- Парсер 2 гис не работает
- 2ГИС — отдельно, спамеры — отдельно
- Проверка гипотезы
- Реакция
- Выводы
H Граббер 2GIS в семь строчек кода, или почему важно контролировать лимиты запросов на сервер в черновиках Из песочницы
Наверное любому из тех, кто хоть как-то причастен к области анализа данных хотя-бы раз приходилось сталкиваться с поиском сторонних источников получения этих самых данных. Сегодня я хотел бы поделиться с Вами одним из самых неожиданных для меня мест, где эти данные лежат почти что на поверхности, да еще и в огромных количествах. Знакомьтесь — это 2GIS.
Как ты это сделал?
Итак, первым делом заходим на сайт 2GIS, вводим случайный адрес и открываем режим разработчика, работа с сетью. Нас интересует вкладка XHR(Он же XMLHttpRequest). Данный запрос предоставляет клиенту функциональность для обмена данными между клиентом и сервером. Более подробна его работа описана здесь.
Видим, что есть запросы нескольких типов:
- get — Запрос на получение информации об объекте по его id;
- items — Запрос на получение списка объектов по строке поиска;
- markers — Запрос на получение информации о значках и их расположении на карте;
- count — Запрос на получение ссылок на фотографии с данного места (могу ошибаться);
- bss — Запрос на построение отдельных полигонов карты (могу ошибаться);
- poi — Запрос на получение информации об отдельных полигонах на карте.
Нас интересует первые два запроса, а именно — запрос items, и запрос get. Недолго думая, полностью копируем первый, вставляем его в браузерную строку, и получаем тот самый JSON ответ, в котором хранится вся информация по запросу «офис компании 2gis». Делаем однозначный вывод: Если можно напрямую отправлять запросы на сервер и получать от него ответ, то это действие можно автоматизировать. Но, давайте для начала разберем, из чего состоит сам запрос:
Перед нами самый обычный GET запрос. Для удобства я предварительно разделил его на части. Взглянем на него и разберемся в деталях:
- viewpoint1, viewpoint2 — это непосредственные координаты нашего окна карты;
- type — тип запроса. Изменяя этот параметр можно осуществлять поиск, к примеру, только только по городам, либо только по «жилым зонам», либо же устроить поиск везде, как в нашем примере.
- page, page_size — номер страницы и количество отображаемых запросов на странице. Бывает так, что по одному запросу может быть несколько ответов. К примеру, на запрос: «банкоматы». Здесь данный параметр очень пригодится.
- locale — Выбранная локаль для запроса.
- q — поле нашего запроса. Как видим, пробелы заменены знаками %20, запятые — на знак %2С. При составлении запроса необходимо будет это учитывать.
- fields — поля возвращаемых значений. В данном поле, по сути, хранится вся информация, которую мы хотим получить в нашем запросе.
- stat, key, r — поля идентификации пользователя.
Попробуем скорректировать наш запрос и посмотреть, какие поля имеют значения, а какие — нет. Забегая вперед скажу, что запрос прекрасно будет работать и без viewpoint,page и прочих подобных. А вот если изменить поля идентификации — непременно получим error 400. Значит по этим ключам и id любая информация должна быть нам доступна.
Проверим. Попробуем заменить поле нашего запроса на любой случайный адрес, с замененными пробелами и запятыми. Страница обновилась, в окне появились данные о постройке по вновь введенном адресу. Значит, запрос корректен. Можно автоматизировать!
Напишем наш Python скрипт, который будет получать JSON ответ с информацией об адресе. Для этого импортируем модуль requests, добавим в headers заголовки браузера ноутбука, предобработаем адрес, и просто отправим запрос на сервер.
Вот и все! 7 строчек кода, и поиск по адресу готов. Введя город, улицу, и дом, наша функция вернет JSON с достаточно неплохой информацией об объекте: его id, широту, долготу, тип, район города, и так далее. И это уже впечатляет!
Больше, больше данных!
Еще больше информации можно получить по запросу get. Правда вместо адреса он использует id постройки, но мы без труда получаем его из предыдущего запроса:
Еще 7 строчек кода, и теперь мы имеем доступ не только к данным о строении, но также и об организациях в этом здании. А именно — время работы, способы оплаты, тип организации, и даже номера телефонов.
А теперь распаралеллить!
Для меня было одновременно и шоком и удивлением то, что все это дело без особых проблем параллелится, а количество запросов на сервер никак не контролируется (намек вспомнить название темы).
Таким образом 2GIS позволяет получать любые данные о любых организациях достаточно быстро и просто. При этом не нужно регистрироваться, оставлять заявку или же изучать API.
На мой взгляд, это достаточно странно, ведь в наше время подобная информация стоит больших денег, а здесь ее можно получить практически прямиком, в любом объеме и бесплатно.
Решается это вроде бы тоже не так сложно — необходимо лишь наладить лимит запросов на сервер (наврядли человек с одним уникальным stat user & key сможет отправлять больше чем 10 запросов в секунду) и никакой, даже самый хитрый охотник за данными, не сможет их украсть.
P.S — такие возможности были открыты в конце декабря, после чего я сразу отписался в техподдержку 2GIS (при чем ни один раз). На дворе 15 января, ответа до сих пор не поступило, из чего можно сделать вывод что «Это не баг, а фича!». Надеюсь, так оно и задумано. Спасибо!
Источник
Парсер 2 гис не работает
Друзья, всех с Новым Годом!
Сегодня выпустили очередное обновление парсера.
Появилась возможность находить нужный город и рубрику через поле поиска.
Сегодня обновили парсер.
Сделали возможность парсинга по ключевым словам
Если нужной Вам рубрики нет в каталоге, либо Вам нужна какая то специфическая ниша, можете использовать режим «Собирать информацию по ключевым словам» и через запятую указать нужные Вам ключевики.
Например: коворкинг, ремонт айфонов. и тд.
Программа рабочая, всё ок, только слишком большую базу долго собирать (например если более 500к компаний), подумал вот над какой реализацией:
1) в начале каждого месяца создаётся новая база всех компаний на сервере Курсора
2) через 2гис парсер можно будет выбрать режим «сделать выгрузку с сервера»
3) пользователь выбирает этот режим, заказывает нужную выборку и получает ссылку на скачивание базы по почте
только не знаю, насколько это экономически выгодно Курсору будет)) а так решился бы вопрос со скоростью, да — данные могут быть старые (не более месяца), но думаю многим пользователям очень полезно было бы
Источник
Скачать Парсер 2Gis + crack (keygen)
Wlad007
Модератор
описание (ru) Парсер 2Gis Отличный выбор для всех, кто работает в сфере продаж.
Программа Парсер 2Gis 2018 сама соберёт всю информацию об организациях, разместивших свои данные в 2 Gis, разобъёт все организации по рубрикам и категориям и позволит сохранить в формате *.csv или *.xlsx. Программа Парсер 2 Gis работает напрямую с сайтом 2Gis, поэтому вся информация актуальна на момент парсинга.
Программа Парсер 2Gis необходима многим:
• для поиска партнеров и клиентов — руководителям компаний;
• для поиска поставщиков — менеджерам по закупкам;
• для поиска покупателей — менеджерам по продаже;
• для изучения рынка — маркетологам;
• и многим другим!
Программа 2gis parser выбирает следующие данные об организации:
· Наименование рубрики
· Наименование категории
· Наименование организации
· Почтовый адрес
· Телефоны
· Вебсайт
· Email
· Геокоординаты
· Примечание
▲ Если организация не указала свой Email в 2 Gis, прогграмма Парсер 2Gis nulled может поискать его на сайте организации.
▲ Программа Парсер 2Gis полная версия умеет работать через прокси-сервер! Если на сайте 2 Gis заблокируют Ваш IP-адрес, программа Парсер 2Gis сообщит Вам об этом и вы легко сможете обойти блокировку с помощью прокси-сервера.
▲ Программа Парсер 2Gis ключ позволяет парсить только те категории, которые Вас интересуют.
▲ Программа Парсер 2Gis crack умеет работать в несколько потоков. Сколько — Вы выбираете сами, в зависимости от мощности Вашего компьютера и пропускной способности Вашего интернета.
Источник
Парсер 2 гис не работает
Made In Tula
[SoftoRooMTeaM]
Группа: Администраторы
Сообщений: 24.631
Регистрация: 22.02.2004
Пользователь №: 7
Респектов: 5361
описание (ru) Парсер 2Gis Отличный выбор для всех, кто работает в сфере продаж.
Программа Парсер 2Gis 2018 сама соберёт всю информацию об организациях, разместивших свои данные в 2 Gis, разобъёт все организации по рубрикам и категориям и позволит сохранить в формате *.csv или *.xlsx. Программа Парсер 2 Gis работает напрямую с сайтом 2Gis, поэтому вся информация актуальна на момент парсинга.
Программа Парсер 2Gis необходима многим:
• для поиска партнеров и клиентов — руководителям компаний;
• для поиска поставщиков — менеджерам по закупкам;
• для поиска покупателей — менеджерам по продаже;
• для изучения рынка — маркетологам;
• и многим другим!
Программа 2gis parser выбирает следующие данные об организации:
· Наименование рубрики
· Наименование категории
· Наименование организации
· Почтовый адрес
· Телефоны
· Вебсайт
· Email
· Геокоординаты
· Примечание
▲ Если организация не указала свой Email в 2 Gis, прогграмма Парсер 2Gis nulled может поискать его на сайте организации.
▲ Программа Парсер 2Gis полная версия умеет работать через прокси-сервер! Если на сайте 2 Gis заблокируют Ваш IP-адрес, программа Парсер 2Gis сообщит Вам об этом и вы легко сможете обойти блокировку с помощью прокси-сервера.
▲ Программа Парсер 2Gis ключ позволяет парсить только те категории, которые Вас интересуют.
▲ Программа Парсер 2Gis crack умеет работать в несколько потоков. Сколько — Вы выбираете сами, в зависимости от мощности Вашего компьютера и пропускной способности Вашего интернета.
Interface languages: Ru
OS: Windows 10/8/7 (32bit-64bit)
Homepage: 2gisparser.tk
скачать бесплатно Парсер 2Gis + crack (keygen)
Не работает ссылка? Пишите в теме, обновим :)! Link is not working? Write in the subject line!
Источник
2ГИС — отдельно, спамеры — отдельно
Негласным лозунгом 2ГИС можно сделать «От забора и до обеда». Он очень точно отражает то, что у нас есть — вся полезная информация о городе. Для одних пользователей это могут быть заборы, для других — точное время работы, для третьих — что-то ещё.
За то, что мы актуальны, точны и знаем практически всё о компаниях, нас и любят. К сожалению, не у всех эта любовь является искренней. Есть пользователи, которые решили, что 2ГИС можно использовать в своих корыстных целях и во вред другим. Нас это не устраивает, поэтому мы решили если не покончить с этим, то сделать жизнь таких пользователей максимально сложной.
Речь, конечно же, о спамерах. Под катом небольшая история про исчезновение адресов e-mail в онлайн-версии, API и то, что будет дальше.
Как утверждает Касперский, доля спама в почтовом трафике составляет 70%. До недавнего времени 2ГИС являлся для спамеров источником для пополнения своих баз рассылки.
Адреса e-mail появились в справочнике примерно в 2002 году. Сейчас никто достоверно не скажет, сколько их тогда было, но точно не очень много. Со временем, от выпуска к выпуску, их количество увеличивалось. В этом, конечно, заслуга не только нашего call-центра, но и развития технологий в целом. Сегодня в 2ГИС почти 2 000 000 компаний. Это порядка 700 000 электронных адресов, которые так интересны «электронным почтальонам». С помощью парсеров они вытаскивали данные и использовали их для рассылки или дальнейшей продажи. Их действия давали нагрузку на API и приносили вред компаниям, которые размещаются в справочнике.
Мы решили с этим активно бороться.
Одним из вариантов было скрытие адресов e-mail. Однако, прежде чем на него решиться, нужно было проверить, как это отразится на пользователях и компаниях. В качестве площадки для эксперимента выбрали самую динамичную версию — онлайн.
Проверка гипотезы
Действительно, а нужны ли e-mail’ы? Используют ли их? Являются ли они эффективным каналом коммуникации с компанией? Перед удалением нужно было дать ответы на все эти вопросы.
Начали с анализа данных. Статистика, которая никогда не врёт, показала, что на 500 звонков приходится 1 клик в почтовый адрес. Не критично.
Посмотрели на просторы интернета. Обнаружили там сайты компаний с каталогами, прайсами и прочими штуками, которые помогают быстро узнать про услуги и цены.
Ещё в интернетах были найдены специализированные ресурсы (Фламп, Банки.ру) и социальные сети, в которых можно пообщаться с представителями компаний, всячески их похвалить или поругать. Тут тоже гладко.
Решили подстраховаться. Опросили себя, друзей себя и друзей друзей. Никто не вспомнил, когда в последний раз нажимал на e-mail. А многие (абсолютное большинство) сказали, что вообще не пишут на info@, так как письмо, скорее всего, провалится в бездну. И, как правило, гораздо проще и эффективнее позвонить или найти почту конкретного специалиста. Опять всё ясно. Почти.
Осталась одно сомнение:
Признаемся сразу. Мы не стали просматривать миллиарды часов вебвизора — есть более эффективные способы провести это время. Решили отключить и посмотреть на реакцию.
Реакция
И как вы думаете, сколько гневных писем мы получили? Десятки, сотни, тысячи? Нет, меньше 10 (десять писем). Да и гневными их назвать было нельзя. Два–три письма были от компаний, которые просто хотели узнать, куда делись адреса. И еще несколько — от лиц, имеющих материальную заинтересованность в их наличии.
Например таких:
Немного магии, дедукции и Гугла поясняют нам, почему человека интересует этот вопрос. А именно, нашлось видео (оно уже выпилено по нашей просьбе), где он демонстрирует работу парсера.
Простите за грустные новости, но мы не планируем возвращать адреса электронной почты и выходим из игры.
Впрочем, некоторые изготовители парсеров с оптимизмом смотрят в будущее и предлагают клиентам свой продукт со скидкой «в связи с техническими проблемами 2ГИС»:
Если для ваших проектов нужны данные из 2ГИС, то гораздо проще их получить легальными путями:
2. Используйте API 2ГИС
Можно всё вместе, а можно отдельно карту и отдельно справочник.
Выводы
Никаких негативных последствий у скрытия e-mail’ов в справочнике не было. Ну, для честных пользователей. А нагрузка на API 2ГИС снизилась примерно на 30%. И что-то подсказывает, что эти 30% нагрузки как раз создавались работой парсеров.
При этом, мы понимаем, что у 2ГИС-онлайн своя аудитория, со своими пользовательскими сценариями, отличными от сценариев использования ПК- и мобильных версиях. Именно поэтому простого скрытия почты в них не будет.
Вместо почты появится форма для обратной связи с компанией. Фактически, сообщение будет уходить на тот же e-mail, что был указан ранее, но только через сервера 2ГИС. Мы надеемся, что это сделает взлом ПК-версии бесполезным занятием, так как лакомый кусочек — адреса e-mail — в самой программе храниться не будут.
Источник