Список организаций в категории «Небанковское кредитование» во всех городах России. Это подборка, изменить условия поиска можно в конструкторе баз
Да, данные актуальны, взяты из первоисточника (сайт компании), дата последнего обновления указана для карточки каждой фирмы
Наш робот обходит все домены в зонах .ru, .рф, .su и индексирует сайты. Ищет на сайте телефон и email, присваиает город, категорию и прочие свойства карточки компании. Таким образом, в базу добавляются новые сайты, также периодически обновляется информация о старых
Сейчас пройдемся по всем полям таблицы
Сайт компании это точка входа для нашего робота. Получаем HTML код, далее алгоритм в нем ищет данные — email, телефон, ссылки на соцсети и т.д. В нашей базе есть все домены .ru, .рф, .su и данные регулярно обновляются
У карточки компании может быть одна из 579 категорий. Полный их список представлен здесь. Категория присваивается алгоритмом машинного обучения на основе содержимого сайта
Так называют короткое читаемое имя в адресе сайта. Оно уникально, и с помощью этого идентификатора можно зайти в карточку компании. Например slug dress4car-ru означает что можно попасть в карточку компании по адресу http://leaq.ru/company/dress4car-ru
Название присваиваем из тэга title на сайте, или из группы ВКонтакте
На страницах сайта ищем текст по формату электронной почты. Email удается определить в ~53% случаев
На страницах сайта смотрим текст по формату телефона. Ищем со скобками и без, но приводим в единый формат 7XXXXXXXXXX. Телефон удается определить для ~62% компаний
Берем из тэга description на сайте, или из группы ВКонтакте
Ответил ли сайт компании корректно при последнем обходе. Если нет, ставится одноименное значение, но данные не удаляем
Определяем по содержимому сайта. Немногие компании указывают эти данные, поэтому совсем нечасто удается определить
Внешний IP адрес, на который нас направляет домен компании. Сохранено для большинства карточек компаний
В какой компании было зарегистрировано доменное имя сайта фирмы. Указано для 100% карточек компаний
Дата когда было впервые зарегистрировано доменное имя
Первая картинка с сайта сохраняется как логотип. Или ававар группы ВКонтакте
Один из городов из списка. Определяется по совпадению, например «г. Москва» и другим частым сочетаниям. Если не найден на сайте, берем из группы ВКонтакте. Указан для ~30% компаний
Определяем по соответствующему полю из адреса в группе компании ВКонтакте
Ищем на сайте ссылки на https://apps.apple.com
Ищем на сайте ссылки на https://play.google.com
ID группы компании ВКонтакте
Текст, указанный в поле «Название» группы ВКонтакте
Адрес группы. Например «dress4car» для https://vk.com/dress4car
Текст, указанный в поле «Описание» группы ВКонтакте
Количество подписчиков в группе
Ссылка на фото, указанное логотипом группы
Ищем группы по ссылкам на сайте
Дата последнего обновления информации по компании
Фреймворки и языки программирования которые робот нашел на сайте. Указывается в формате «категория - технология», список разделен точкой с запятой «;»
Скорость как быстро ответил сайт нашему роботу. Указывается в миллисекундах. Полезно для фильтров, например если ваша компания занимается разработкой/модернизацией сайтов на PHP, можно найти компании с медленным сайтом на PHP и предложить им услуги по ускорению
Берем информацию о первых 5 менеджерах из блока «Контакты» в группе компании ВКонтакте
Предлагаем воспользоваться конструктором баз. Там вы сможете выбрать один/несколько городов, категорий и других атрибутов. Можно легко отфильтровать лишнее и найти то что нужно вам. Или просто скачать более 2 млн компаний одним файлом и анализировать у себя на компьютере
Все функции конструктора доступны бесплатно, но в выгрузке будет не более 500 элементов. Детали платного тарифа представлены ниже