Нейросети сократили наполнение агрегатора с 2 недель до 2 дней

Два контент-менеджера, три копирайтера и один верстальщик. Их обычный день — это монотонная работа в десятках вкладок браузера: ручной сбор данных о компаниях, копирование прайс-листов, попытки вручную составить хоть сколько-нибудь уникальное описание для тысячного по счету салона красоты или автосервиса. Добавление одной карточки услуги на сайт-агрегатор занимало до 40 минут. Новый партнер появлялся в каталоге через 3-5 дней после подписания договора. Масштабироваться было невозможно: чтобы добавить 1000 новых позиций, команде потребовалась бы целая квартальная работа.

Сегодня этот же процесс выглядит иначе. Сырые данные с сайтов партнеров, в PDF-каталогах и даже в соцсетях автоматически собираются, очищаются, структурируются и превращаются в готовые карточки с уникальными описаниями. Контентный конвейер, который раньше буксовал, теперь работает как часы. Время на добавление одной услуги сократилось до 5 минут, а наполнение агрегатора новыми данными, которое занимало две недели, теперь укладывается в два дня. В основе этого переворота — поэтапное внедрение нейросетей в каждый шаг обработки информации.

Контекст: Агрегатор услуг с тысячами ручных правок

Проект — региональный агрегатор бытовых и бизнес-услуг. В каталоге представлены тысячи компаний из сферы ремонта, клининга, IT, ивентов. Бизнес-модель стандартна: партнеры платят за размещение и лиды. Однако издержки на контент были колоссальными. Каждого нового партнера нужно было «онбордить» в каталог: собрать данные об услугах, ценах, особенностях, создать текстовые описания для SEO, корректно разложить все по категориям и подкатегориям. Обновление информации (акции, новые цены, изменения в перечне услуг) также ложилось на плечи контент-команды. Годовая стоимость содержания такого отдела, включая зарплаты и софт, превышала 1.5 млн рублей, при этом скорость роста базы услуг была главным ограничителем для доходов.

Проблема: Контентный конвейер буксовал на каждой операции

Процесс ручного наполнения можно было разбить на четыре узких места, каждое из которых съедало время и деньги.

1. Сбор и извлечение данных. Информация приходила в любом виде: ссылка на сайт, PDF-прайс, таблица в Google Docs, фото визитки. Контент-менеджеру приходилось вручную искать данные на сайте, копировать тексты из PDF (которые часто были сканами) или перепечатывать информацию с изображений.

2. Очистка и структурирование. Сырые данные представляли собой мешанину: цены в разных форматах, неполные названия услуг, дубли. Требовалась ручная чистка и приведение к единому стандарту перед загрузкой в базу.

3. Создание уникального текстового контента. Написание вручную хотя бы короткого, но осмысленного описания для каждой услуги (например, «Химчистка дивана на дому») было самой творческой и самой медленной частью. Копирайтеры быстро упирались в кризис идей, что вело к шаблонным и низкокачественным текстам.

4. Категоризация и загрузка в CMS. Нужно было правильно определить основную и дополнительные категории для каждой услуги, чтобы пользователь мог ее найти. Ошибки приводили к «потерянным» карточкам и недовольству партнеров.

Итог: на одну карточку уходило в среднем 35-40 минут, из которых 15-20 минут — просто на сбор и копипаст данных. Команда физически не успевала обрабатывать более 50 новых партнеров в месяц.

Решение: Встраивание нейросетей в ключевые этапы конвейера

Вместо поиска одного «волшебного» ИИ-решения был спроектирован новый конвейер, где нейросети отвечали за конкретные, узкие задачи.

Этап 1: Умный парсинг и OCR. Для сбора данных с веб-сайтов использовались скрипты на Python (библиотеки BeautifulSoup, Scrapy), но главным улучшением стала их интеграция с нейросетевыми моделями для распознавания структуры. Если скрипт не мог найти нужные данные стандартным путем, на помощь приходила модель, обученная понимать разметку типовых сайтов услуг. Для PDF и изображений применялся не просто OCR, а нейросетевой OCR (например, на базе Tesseract с дообучением), который точнее распознавал текст в сканах и фотографиях.

Этап 2: Структурирование и чистка данных. Здесь вступила в дело языковая модель (была использована GPT для задач классификации). Сырой текст, полученный на первом этапе, подавался в модель с четким промптом: «Извлеки из следующего текста названия услуг, цены, единицы измерения и краткое описание. Верни данные в формате JSON». Нейросеть не только извлекала сущности, но и стандартизировала формат цен (например, превращала «от 1500 руб.» в «1500») и отсеивала мусор.

Этап 3: Генерация описаний и SEO-текстов. Это — сердце автоматизации. Для каждой услуги нейросеть (та же GPT) получала структурированные данные (название, категория, ключевые особенности) и промпт-инструкцию по стилю: «Создай краткое, информативное описание услуги «[Название]» для сайта-агрегатора. Употреби ключевые слова: [Ключевые слова]. Объем: 2-3 предложения. Тон: деловой, но понятный». Так для тысячи карточек создавались уникальные, релевантные тексты за несколько часов.

Этап 4: Автоматическая категоризация и модерация. Еще одна классификационная модель анализировала сгенерированное описание и название услуги, чтобы присвоить ей одну или несколько категорий из заранее заданного дерева. Финальный шаг — «проверка здравомыслием»: простой скрипт и человек-модератор выборочно проверяли, не произвела ли нейросеть откровенный бред или не попали ли в описание неуместные фразы.

Результат: Показатели до и после внедрения

Эффект от внедрения нейросетей для автоматизации контента был измерен по ключевым операционным метрикам.

Метрика	До внедрения (ручной процесс)	После внедрения (нейросетевой конвейер)
Время на добавление 1 карточки услуги	35–40 минут	4–6 минут
Время на наполнение агрегатора (1000 карточек)	~14 рабочих дней (2 недели)	~2 рабочих дня
Стоимость обработки 1 карточки (трудозатраты)	~250–300 рублей	~30–40 рублей
Объем добавляемого контента в месяц	до 500–700 карточек	до 4000–5000 карточек
Количество ошибок в категоризации/описаниях	~5–7% (человеческий фактор)	~1–2% (после модерации)

Главный результат — не просто скорость, а масштабируемость. Бизнес перестал упираться в ограничения контент-команды. Теперь можно было быстро запускать новые вертикали (например, из «ремонта» зайти в «услуги для праздников»), не нанимая с нуля десяток копирайтеров.

Что пошло не так и как это исправили

Внедрение не было гладким. Первые версии конвейера выдавали непригодные для использования результаты.

Проблема 1: «Халтура» нейросетей. Первые промпты для генерации описаний были слишком общими («Напиши описание»). Нейросеть выдавала шаблонные, водянистые тексты, а иногда просто повторяла название услуги другими словами. Решение: Разработка детальных промптов с конкретными требованиями: структура (преимущество-описание-результат), запрет на использование определенных штампов, указание целевой аудитории. Промпты постоянно тестировались и улучшались.

Проблема 2: Ошибки в структурировании. Модель для извлечения данных иногда путала цены за разные единицы (например, «за м²» и «за весь объект»). Решение: Внедрение пост-обработки правилами. После работы нейросети простой скрипт проверял извлеченные данные на соответствие логическим границам (например, если цена на уборку 100 000 рублей — это явная ошибка, требующая перепроверки).

Проблема 3: Необходимость человеческого контроля. Полностью убрать человека из процесса не удалось. Решение: Перепрофилирование команды. Контент-менеджеры и копирайтеры стали кураторами и настройщиками нейросетевого конвейера. Их задача — выборочная проверка (5-10% карточек), анализ ошибок, тонкая настройка промптов и категорий. Это повысило их экспертизу и ценность.

Что взять на заметку для своего проекта

Основываясь на этом кейсе, можно сформулировать практические шаги для внедрения похожего решения.

1. Начинайте с самого болезненного этапа. Не пытайтесь автоматизировать всё сразу. Проанализируйте ваш контент-конвейер и найдите этап, который отнимает больше всего времени при минимальной творческой ценности (часто это сбор и чистка данных). С него и стоит начинать.

2. Считайте ROI не от скорости, а от масштаба. Главная выгода — не в том, что вы сэкономили на зарплате копирайтера, а в том, что вы можете обрабатывать в 5-10 раз больше данных без роста команды. Это прямая возможность захватить новые ниши и увеличить доход.

3. Готовьтесь к роли «тренера ИИ». Вам понадобится не программист-одиночка, а связка: технолог (для интеграции API и написания скриптов) и контент-специалист (который глубоко понимает, какой контент нужен, и сможет формулировать точные промпты).

4. Принимайте «достаточно хороший» результат. Нейросеть не создаст гениальный, блестящий текст для каждой карточки. Но она создаст уникальный, читаемый и релевантный текст для тысяч карточек одновременно. Это компромисс между перфекционизмом и масштабом.

Следующий шаг: от количества к качеству и персонализации

Решив задачу базового наполнения агрегатора, команда переключилась на улучшение качества и глубины контента с помощью тех же технологий. Теперь нейросети используются для:

Генерации развернутых FAQ для сложных услуг на основе анализа вопросов клиентов.
Автоматической SEO-оптимизации: модели анализируют топ выдачи, чтобы предлагать релевантные семантические ядра и структурировать H2-H3 заголовки в описаниях.
Персонализации сниппетов: создание разных вариантов кратких описаний одной и той же услуги для разных сегментов аудитории (например, для эконом-класса делать акцент на цене, для премиум — на качестве и гарантиях).

Автоматизация через нейросети — это не про увольнение людей, а про перераспределение человеческого интеллекта с рутинного копирования на стратегические задачи: улучшение пользовательского опыта, развитие новых направлений и глубокий анализ данных, которые теперь генерирует ваш агрегатор с невиданной скоростью.

Процесс, занявший два года назад два месяца на внедрение, сегодня можно запустить за несколько недель благодаря развитию API и no-code инструментов. Вопрос уже не в том, возможно ли это технически, а в том, готов ли ваш бизнес перестать тратить время на рутину и начать масштабироваться.

Все статьи

8 (993) 728-45-76

niksan.dev@yandex.ru

Telegram: niksan_ru

Обсудить задачу