AI Product Manager: чем занимается и где учиться
Карьерник — Telegram-тренажёр для собеса аналитика и продакт-менеджера: 5–10 минут в день, 2500+ вопросов, разбор после каждого ответа.
Содержание:
Кто такой AI Product Manager
AI Product Manager — это продакт, который ведёт продукты, где модели ML или LLM являются основой ценности. Не просто «у нас в продукте есть рекомендательная система», а «продукт в принципе не существует без модели». Чат-боты, copilot-фичи, генеративные инструменты, голосовые ассистенты, поиск по смыслу.
С приходом LLM спрос на таких продактов вырос. Но и роль усложнилась: AI PM должен думать про данные, оценку качества, безопасность, галлюцинации, цену инференса — и при этом оставаться обычным продакт-менеджером, который собирает обратную связь и приоритизирует бэклог.
Простой маркер: если выключить модель, продукт превращается в форму с пустыми полями — это AI-продукт. Если выключить, и пользователь даже не заметит — это «продукт с AI-фичей», и для него отдельный AI PM не нужен. Граница важна, потому что собеседующий часто проверяет именно понимание этой разницы.
Чем занимается AI PM на практике
Типовая неделя:
- Формулирует, что значит «хорошо» для конкретной фичи (определение успеха).
- Работает с командой ML/инженерами над сбором данных и валидацией.
- Оценивает качество — выборки, разметка, eval-датасеты.
- Пишет и тестирует промпты, если в основе LLM.
- Выбирает между «своя модель» и «через API» с учётом цены и приватности.
- Управляет рисками: галлюцинации, токсичность, утечки.
- Оценивает экономику: стоимость токенов / инференса на сценарий.
- Обсуждает UX вокруг неопределённости: как показать, что ответ может быть неточным.
В обычном продукте, если кнопка нажимается — она работает. В AI-продукте «работает» — это статистика, и продакт всё время живёт в мире вероятностей.
Пример еженедельных задач AI PM в чат-ассистенте поддержки:
- понедельник: разметка 200 свежих диалогов по двум осям — «правильность» и «полезность»;
- вторник: A/B новой версии промпта vs старой на eval-наборе из 500 кейсов;
- среда: разбор top-10 жалоб пользователей за неделю, обновление guard-rails;
- четверг: встреча с командой безопасности по рискам утечки PII;
- пятница: оценка стоимости перехода с модели X на модель Y с учётом качества и цены.
Что важно понимать в моделях
AI PM не обязан обучать модели руками, но обязан понимать:
- Разницу между классическим ML (классификация, регрессия, ранжирование) и генеративными моделями (LLM, диффузия).
- Что такое эмбеддинги и зачем их используют в поиске и рекомендациях.
- Как работает RAG (retrieval-augmented generation) — поиск по корпусу + ответ моделью.
- Что такое fine-tuning и когда он нужен, а когда хватит хорошего промпта.
- Понятие контекстного окна, температуры, top-p в LLM.
- Базовую этику и риски: bias, безопасность, приватность.
Этот минимум нужен, чтобы говорить с командой на одном языке и принимать осмысленные решения. Учиться этому можно на курсах, но быстрее — крутить руками: построить mini-RAG, поиграть с промптами, прочитать пару больших инженерных постов.
Чек-лист «когда какой подход»:
| Сценарий | Подход первой попытки | Когда переходить |
|---|---|---|
| Простой Q&A по короткому контексту | Промпт + готовая LLM | Если стоимость или латентность бьют — на меньшую модель |
| Q&A по большому корпусу документов | RAG (эмбеддинги + LLM) | Если поиск даёт нерелевантные куски — переразметка корпуса, реранкер |
| Узкий доменный язык, юридический/медицинский | RAG + системный промпт | Fine-tune только если базовая точность не вытягивает |
| Структурированная классификация (тикеты, отзывы) | LLM с few-shot | На объёме — fine-tune маленькой модели, дешевле в проде |
| Поиск похожих объектов | Эмбеддинги + векторный индекс | Реранкер, гибридный поиск |
Оценка качества и метрики
В AI-продуктах метрики делятся на два слоя.
Качество модели:
- Accuracy / precision / recall — для классификаторов.
- ROC AUC — для ранжирования.
- BLEU / ROUGE — для текстовой генерации (с оговорками, эти метрики ограничены).
- Human eval — экспертная оценка качества ответов на стандартизованных задачах.
- LLM-as-a-judge — другая модель оценивает ответы по чек-листу.
Продуктовые метрики:
- Принимаемость предложений (acceptance rate в copilot-сценариях).
- Win rate против бейзлайна в side-by-side.
- Время выполнения задачи с моделью и без.
- Retention и engagement пользователей фичи.
- Количество жалоб и thumbs-down.
AI PM строит eval-набор, который повторяет реальные пользовательские запросы, и прогоняет на нём каждое изменение промпта или модели. Без этого нельзя сравнивать варианты — «вроде стало лучше» не считается.
Минимальный eval-набор для копайлота: 50–200 кейсов, разбитых по типу задачи (10–15 шт на каждый), с эталонными ответами или критериями оценки. Дальше — рост до 500–1000 по мере зрелости. Это ориентир, точное число зависит от продукта.
Экономика инференса
То, о чём забывают чаще всего. Когда фича работает на 100 бета-пользователей, стоимость инференса теряется. Когда раскатили на 1 миллион — счёт в OpenAI/Anthropic становится главным CFO-вопросом.
Что считает AI PM:
- стоимость одного запроса = (input-токены × цена in) + (output-токены × цена out);
- стоимость на пользователя в месяц = средние запросы × стоимость одного;
- marginal cost фичи = разница между «с фичей» и «без фичи»;
- gross margin продукта при включённой фиче.
Шаблон расчёта: пусть средний диалог даёт 1500 input-токенов и 500 output. Цена модели — условные 3$ за 1M input и 15$ за 1M output. Цена одного диалога — около $0,012. Если у тебя 200 тысяч диалогов в день — это $2400 в день, $72 тысячи в месяц. Это ориентир: цены меняются, нужно проверять на актуальный прайс.
Рычаги снижения цены:
- кеширование одинаковых input-промптов;
- более дешёвая модель на простых запросах, дорогая — только на сложных;
- сокращение системного промпта;
- summarization истории диалога вместо передачи целиком;
- batch-инференс там, где задержка не критична.
Где учиться
Что стоит читать и смотреть на регулярной основе:
- Документация OpenAI, Anthropic, Google — у каждого есть гайды по best practices.
- Курсы DeepLearning.AI про LLM и продакт-применения.
- Технические блоги Stripe, Notion, Linear, GitHub про их AI-фичи — много продуктовой кухни.
- Каналы и подкасты про прикладной AI на русском и английском (выбирай те, где не только хайп, но и разборы).
- Книга «Designing Machine Learning Systems» Чи Хуен — для понимания инженерной части.
Главное — практика. Сделай свой пет-проект на API: чат-бот по своим заметкам, ассистент по документации, классификатор писем. За пару выходных получишь больше понимания, чем за десять курсов.
Как зайти в AI-продакт
Реалистичные пути:
- Из обычного продакта — взять AI-фичу в текущем продукте и довести до прода. После этого можно идти по рынку с реальным кейсом.
- Из аналитика или DS — добавить продуктовое мышление, начать брать на себя приоритизацию и продуктовые решения.
- Из инжиниринга — пройти путь к продакту через инициативы и ownership на стыке продукта и моделей.
На собесе ждут конкретики: какие модели использовали, как мерили качество, какие были проблемы в проде, как считали стоимость. Хайп без кейсов считывается за пять минут.
Хорошие кейсы для портфолио:
- собрал eval-набор и описал, как метрики менялись от версии к версии;
- провёл A/B новой LLM-фичи против контрольной группы;
- посчитал unit-экономику фичи и принял решение о раскатке;
- разобрал инцидент с галлюцинациями и описал процесс reincident-prevention.
Частые ошибки
- Считать AI PM «обычным продактом, но с буквами AI». Без понимания качества и оценки фичи будут выходить плохими.
- Делать продукт без eval-датасета. Любое улучшение становится спорным.
- Забывать про экономику инференса. Когда фичу включили на всех, бюджет на API вырос в 30 раз.
- Полностью полагаться на промпт. Когда задача не решается промптом, нужен RAG, fine-tune или другой подход.
- Игнорировать UX неопределённости. Пользователь должен видеть, что ответ может быть неточным.
- Описывать роль AI PM только хайпом и без конкретики на собеседовании.
- Запускать без guard-rails: токсичность, PII, попытки jailbreak.
- Сравнивать модели «по ощущениям» без зафиксированного набора кейсов.
Связанные темы
FAQ
Нужно ли AI PM программировать?
Не обязательно писать прод-код, но крутить промпты, дёргать API и собирать прототипы — да. Это входит в обычный набор инструментов.
Чем AI PM отличается от Data PM?
Data PM чаще про инфраструктуру данных, дашборды, self-serve аналитику. AI PM — про модели и фичи, основанные на ML/LLM. Пересечение есть, но фокус разный.
Можно ли стать AI PM с нуля?
Реалистичнее зайти из смежных ролей: продакт без AI-фокуса, аналитик, инженер. Без продакт-опыта или технического бэкграунда вход в AI PM сложный.
Какие модели должен знать AI PM?
Не «знать наизусть», а понимать классы: классические ML-модели для табличных данных, эмбеддинги, LLM, диффузионные. Плюс свежие имена моделей, которые компании используют в проде.
Как доказать на собесе, что разбираешься в LLM?
Конкретными кейсами. «Мы строили eval из 300 запросов, после смены модели accuracy выросла с 72% до 81%, при этом cost-per-query снизилась на 40% — за счёт переноса простых запросов на модель поменьше». Цифры — ориентиры, заменяй на свои.
Кто отвечает за галлюцинации — AI PM или ML-инженер?
Оба, но по-разному. Инженер отвечает за технические рычаги (промпт, RAG, guard-rails). AI PM отвечает за то, чтобы пользователь не пострадал: дисклеймеры, UX неопределённости, процесс работы с инцидентами.
Сколько по деньгам стоит запустить минимальный AI-продукт на LLM?
Прототип на готовом API — десятки долларов в месяц. Прод на тысячах пользователей — сотни-тысячи. Самый дорогой сценарий — массовый чат-помощник без оптимизации, там быстро уходит в шестизначные суммы. Это ориентиры, проверяй на текущий прайс провайдера.
Хочешь в AI-команду — тренируйся в Карьернике: продуктовые кейсы, метрики, ML-вопросы в формате квиза.