Два контент-менеджера, три копирайтера и один верстальщик. Их обычный день — это монотонная работа в десятках вкладок браузера: ручной сбор данных о компаниях, копирование прайс-листов, попытки вручную составить хоть сколько-нибудь уникальное описание для тысячного по счету салона красоты или автосервиса. Добавление одной карточки услуги на сайт-агрегатор занимало до 40 минут. Новый партнер появлялся в каталоге через 3-5 дней после подписания договора. Масштабироваться было невозможно: чтобы добавить 1000 новых позиций, команде потребовалась бы целая квартальная работа.
Сегодня этот же процесс выглядит иначе. Сырые данные с сайтов партнеров, в PDF-каталогах и даже в соцсетях автоматически собираются, очищаются, структурируются и превращаются в готовые карточки с уникальными описаниями. Контентный конвейер, который раньше буксовал, теперь работает как часы. Время на добавление одной услуги сократилось до 5 минут, а наполнение агрегатора новыми данными, которое занимало две недели, теперь укладывается в два дня. В основе этого переворота — поэтапное внедрение нейросетей в каждый шаг обработки информации.
Проект — региональный агрегатор бытовых и бизнес-услуг. В каталоге представлены тысячи компаний из сферы ремонта, клининга, IT, ивентов. Бизнес-модель стандартна: партнеры платят за размещение и лиды. Однако издержки на контент были колоссальными. Каждого нового партнера нужно было «онбордить» в каталог: собрать данные об услугах, ценах, особенностях, создать текстовые описания для SEO, корректно разложить все по категориям и подкатегориям. Обновление информации (акции, новые цены, изменения в перечне услуг) также ложилось на плечи контент-команды. Годовая стоимость содержания такого отдела, включая зарплаты и софт, превышала 1.5 млн рублей, при этом скорость роста базы услуг была главным ограничителем для доходов.
Процесс ручного наполнения можно было разбить на четыре узких места, каждое из которых съедало время и деньги.
1. Сбор и извлечение данных. Информация приходила в любом виде: ссылка на сайт, PDF-прайс, таблица в Google Docs, фото визитки. Контент-менеджеру приходилось вручную искать данные на сайте, копировать тексты из PDF (которые часто были сканами) или перепечатывать информацию с изображений.
2. Очистка и структурирование. Сырые данные представляли собой мешанину: цены в разных форматах, неполные названия услуг, дубли. Требовалась ручная чистка и приведение к единому стандарту перед загрузкой в базу.
3. Создание уникального текстового контента. Написание вручную хотя бы короткого, но осмысленного описания для каждой услуги (например, «Химчистка дивана на дому») было самой творческой и самой медленной частью. Копирайтеры быстро упирались в кризис идей, что вело к шаблонным и низкокачественным текстам.
4. Категоризация и загрузка в CMS. Нужно было правильно определить основную и дополнительные категории для каждой услуги, чтобы пользователь мог ее найти. Ошибки приводили к «потерянным» карточкам и недовольству партнеров.
Итог: на одну карточку уходило в среднем 35-40 минут, из которых 15-20 минут — просто на сбор и копипаст данных. Команда физически не успевала обрабатывать более 50 новых партнеров в месяц.
Вместо поиска одного «волшебного» ИИ-решения был спроектирован новый конвейер, где нейросети отвечали за конкретные, узкие задачи.
Этап 1: Умный парсинг и OCR. Для сбора данных с веб-сайтов использовались скрипты на Python (библиотеки BeautifulSoup, Scrapy), но главным улучшением стала их интеграция с нейросетевыми моделями для распознавания структуры. Если скрипт не мог найти нужные данные стандартным путем, на помощь приходила модель, обученная понимать разметку типовых сайтов услуг. Для PDF и изображений применялся не просто OCR, а нейросетевой OCR (например, на базе Tesseract с дообучением), который точнее распознавал текст в сканах и фотографиях.
Этап 2: Структурирование и чистка данных. Здесь вступила в дело языковая модель (была использована GPT для задач классификации). Сырой текст, полученный на первом этапе, подавался в модель с четким промптом: «Извлеки из следующего текста названия услуг, цены, единицы измерения и краткое описание. Верни данные в формате JSON». Нейросеть не только извлекала сущности, но и стандартизировала формат цен (например, превращала «от 1500 руб.» в «1500») и отсеивала мусор.
Этап 3: Генерация описаний и SEO-текстов. Это — сердце автоматизации. Для каждой услуги нейросеть (та же GPT) получала структурированные данные (название, категория, ключевые особенности) и промпт-инструкцию по стилю: «Создай краткое, информативное описание услуги «[Название]» для сайта-агрегатора. Употреби ключевые слова: [Ключевые слова]. Объем: 2-3 предложения. Тон: деловой, но понятный». Так для тысячи карточек создавались уникальные, релевантные тексты за несколько часов.
Этап 4: Автоматическая категоризация и модерация. Еще одна классификационная модель анализировала сгенерированное описание и название услуги, чтобы присвоить ей одну или несколько категорий из заранее заданного дерева. Финальный шаг — «проверка здравомыслием»: простой скрипт и человек-модератор выборочно проверяли, не произвела ли нейросеть откровенный бред или не попали ли в описание неуместные фразы.
Эффект от внедрения нейросетей для автоматизации контента был измерен по ключевым операционным метрикам.
| Метрика | До внедрения (ручной процесс) | После внедрения (нейросетевой конвейер) |
|---|---|---|
| Время на добавление 1 карточки услуги | 35–40 минут | 4–6 минут |
| Время на наполнение агрегатора (1000 карточек) | ~14 рабочих дней (2 недели) | ~2 рабочих дня |
| Стоимость обработки 1 карточки (трудозатраты) | ~250–300 рублей | ~30–40 рублей |
| Объем добавляемого контента в месяц | до 500–700 карточек | до 4000–5000 карточек |
| Количество ошибок в категоризации/описаниях | ~5–7% (человеческий фактор) | ~1–2% (после модерации) |
Главный результат — не просто скорость, а масштабируемость. Бизнес перестал упираться в ограничения контент-команды. Теперь можно было быстро запускать новые вертикали (например, из «ремонта» зайти в «услуги для праздников»), не нанимая с нуля десяток копирайтеров.
Внедрение не было гладким. Первые версии конвейера выдавали непригодные для использования результаты.
Проблема 1: «Халтура» нейросетей. Первые промпты для генерации описаний были слишком общими («Напиши описание»). Нейросеть выдавала шаблонные, водянистые тексты, а иногда просто повторяла название услуги другими словами. Решение: Разработка детальных промптов с конкретными требованиями: структура (преимущество-описание-результат), запрет на использование определенных штампов, указание целевой аудитории. Промпты постоянно тестировались и улучшались.
Проблема 2: Ошибки в структурировании. Модель для извлечения данных иногда путала цены за разные единицы (например, «за м²» и «за весь объект»). Решение: Внедрение пост-обработки правилами. После работы нейросети простой скрипт проверял извлеченные данные на соответствие логическим границам (например, если цена на уборку 100 000 рублей — это явная ошибка, требующая перепроверки).
Проблема 3: Необходимость человеческого контроля. Полностью убрать человека из процесса не удалось. Решение: Перепрофилирование команды. Контент-менеджеры и копирайтеры стали кураторами и настройщиками нейросетевого конвейера. Их задача — выборочная проверка (5-10% карточек), анализ ошибок, тонкая настройка промптов и категорий. Это повысило их экспертизу и ценность.
Основываясь на этом кейсе, можно сформулировать практические шаги для внедрения похожего решения.
1. Начинайте с самого болезненного этапа. Не пытайтесь автоматизировать всё сразу. Проанализируйте ваш контент-конвейер и найдите этап, который отнимает больше всего времени при минимальной творческой ценности (часто это сбор и чистка данных). С него и стоит начинать.
2. Считайте ROI не от скорости, а от масштаба. Главная выгода — не в том, что вы сэкономили на зарплате копирайтера, а в том, что вы можете обрабатывать в 5-10 раз больше данных без роста команды. Это прямая возможность захватить новые ниши и увеличить доход.
3. Готовьтесь к роли «тренера ИИ». Вам понадобится не программист-одиночка, а связка: технолог (для интеграции API и написания скриптов) и контент-специалист (который глубоко понимает, какой контент нужен, и сможет формулировать точные промпты).
4. Принимайте «достаточно хороший» результат. Нейросеть не создаст гениальный, блестящий текст для каждой карточки. Но она создаст уникальный, читаемый и релевантный текст для тысяч карточек одновременно. Это компромисс между перфекционизмом и масштабом.
Решив задачу базового наполнения агрегатора, команда переключилась на улучшение качества и глубины контента с помощью тех же технологий. Теперь нейросети используются для:
Автоматизация через нейросети — это не про увольнение людей, а про перераспределение человеческого интеллекта с рутинного копирования на стратегические задачи: улучшение пользовательского опыта, развитие новых направлений и глубокий анализ данных, которые теперь генерирует ваш агрегатор с невиданной скоростью.
Процесс, занявший два года назад два месяца на внедрение, сегодня можно запустить за несколько недель благодаря развитию API и no-code инструментов. Вопрос уже не в том, возможно ли это технически, а в том, готов ли ваш бизнес перестать тратить время на рутину и начать масштабироваться.