AI Product Manager: чем занимается и где учиться

Карьерник — Telegram-тренажёр для собеса аналитика и продакт-менеджера: 5–10 минут в день, 2500+ вопросов, разбор после каждого ответа.

Кто такой AI Product Manager

AI Product Manager — это продакт, который ведёт продукты, где модели ML или LLM являются основой ценности. Не просто «у нас в продукте есть рекомендательная система», а «продукт в принципе не существует без модели». Чат-боты, copilot-фичи, генеративные инструменты, голосовые ассистенты, поиск по смыслу.

С приходом LLM спрос на таких продактов вырос. Но и роль усложнилась: AI PM должен думать про данные, оценку качества, безопасность, галлюцинации, цену инференса — и при этом оставаться обычным продакт-менеджером, который собирает обратную связь и приоритизирует бэклог.

Простой маркер: если выключить модель, продукт превращается в форму с пустыми полями — это AI-продукт. Если выключить, и пользователь даже не заметит — это «продукт с AI-фичей», и для него отдельный AI PM не нужен. Граница важна, потому что собеседующий часто проверяет именно понимание этой разницы.

Чем занимается AI PM на практике

Типовая неделя:

  • Формулирует, что значит «хорошо» для конкретной фичи (определение успеха).
  • Работает с командой ML/инженерами над сбором данных и валидацией.
  • Оценивает качество — выборки, разметка, eval-датасеты.
  • Пишет и тестирует промпты, если в основе LLM.
  • Выбирает между «своя модель» и «через API» с учётом цены и приватности.
  • Управляет рисками: галлюцинации, токсичность, утечки.
  • Оценивает экономику: стоимость токенов / инференса на сценарий.
  • Обсуждает UX вокруг неопределённости: как показать, что ответ может быть неточным.

В обычном продукте, если кнопка нажимается — она работает. В AI-продукте «работает» — это статистика, и продакт всё время живёт в мире вероятностей.

Пример еженедельных задач AI PM в чат-ассистенте поддержки:

  • понедельник: разметка 200 свежих диалогов по двум осям — «правильность» и «полезность»;
  • вторник: A/B новой версии промпта vs старой на eval-наборе из 500 кейсов;
  • среда: разбор top-10 жалоб пользователей за неделю, обновление guard-rails;
  • четверг: встреча с командой безопасности по рискам утечки PII;
  • пятница: оценка стоимости перехода с модели X на модель Y с учётом качества и цены.

Что важно понимать в моделях

AI PM не обязан обучать модели руками, но обязан понимать:

  • Разницу между классическим ML (классификация, регрессия, ранжирование) и генеративными моделями (LLM, диффузия).
  • Что такое эмбеддинги и зачем их используют в поиске и рекомендациях.
  • Как работает RAG (retrieval-augmented generation) — поиск по корпусу + ответ моделью.
  • Что такое fine-tuning и когда он нужен, а когда хватит хорошего промпта.
  • Понятие контекстного окна, температуры, top-p в LLM.
  • Базовую этику и риски: bias, безопасность, приватность.

Этот минимум нужен, чтобы говорить с командой на одном языке и принимать осмысленные решения. Учиться этому можно на курсах, но быстрее — крутить руками: построить mini-RAG, поиграть с промптами, прочитать пару больших инженерных постов.

Чек-лист «когда какой подход»:

Сценарий Подход первой попытки Когда переходить
Простой Q&A по короткому контексту Промпт + готовая LLM Если стоимость или латентность бьют — на меньшую модель
Q&A по большому корпусу документов RAG (эмбеддинги + LLM) Если поиск даёт нерелевантные куски — переразметка корпуса, реранкер
Узкий доменный язык, юридический/медицинский RAG + системный промпт Fine-tune только если базовая точность не вытягивает
Структурированная классификация (тикеты, отзывы) LLM с few-shot На объёме — fine-tune маленькой модели, дешевле в проде
Поиск похожих объектов Эмбеддинги + векторный индекс Реранкер, гибридный поиск

Оценка качества и метрики

В AI-продуктах метрики делятся на два слоя.

Качество модели:

  • Accuracy / precision / recall — для классификаторов.
  • ROC AUC — для ранжирования.
  • BLEU / ROUGE — для текстовой генерации (с оговорками, эти метрики ограничены).
  • Human eval — экспертная оценка качества ответов на стандартизованных задачах.
  • LLM-as-a-judge — другая модель оценивает ответы по чек-листу.

Продуктовые метрики:

  • Принимаемость предложений (acceptance rate в copilot-сценариях).
  • Win rate против бейзлайна в side-by-side.
  • Время выполнения задачи с моделью и без.
  • Retention и engagement пользователей фичи.
  • Количество жалоб и thumbs-down.

AI PM строит eval-набор, который повторяет реальные пользовательские запросы, и прогоняет на нём каждое изменение промпта или модели. Без этого нельзя сравнивать варианты — «вроде стало лучше» не считается.

Минимальный eval-набор для копайлота: 50–200 кейсов, разбитых по типу задачи (10–15 шт на каждый), с эталонными ответами или критериями оценки. Дальше — рост до 500–1000 по мере зрелости. Это ориентир, точное число зависит от продукта.

Экономика инференса

То, о чём забывают чаще всего. Когда фича работает на 100 бета-пользователей, стоимость инференса теряется. Когда раскатили на 1 миллион — счёт в OpenAI/Anthropic становится главным CFO-вопросом.

Что считает AI PM:

  • стоимость одного запроса = (input-токены × цена in) + (output-токены × цена out);
  • стоимость на пользователя в месяц = средние запросы × стоимость одного;
  • marginal cost фичи = разница между «с фичей» и «без фичи»;
  • gross margin продукта при включённой фиче.

Шаблон расчёта: пусть средний диалог даёт 1500 input-токенов и 500 output. Цена модели — условные 3$ за 1M input и 15$ за 1M output. Цена одного диалога — около $0,012. Если у тебя 200 тысяч диалогов в день — это $2400 в день, $72 тысячи в месяц. Это ориентир: цены меняются, нужно проверять на актуальный прайс.

Рычаги снижения цены:

  • кеширование одинаковых input-промптов;
  • более дешёвая модель на простых запросах, дорогая — только на сложных;
  • сокращение системного промпта;
  • summarization истории диалога вместо передачи целиком;
  • batch-инференс там, где задержка не критична.

Где учиться

Что стоит читать и смотреть на регулярной основе:

  • Документация OpenAI, Anthropic, Google — у каждого есть гайды по best practices.
  • Курсы DeepLearning.AI про LLM и продакт-применения.
  • Технические блоги Stripe, Notion, Linear, GitHub про их AI-фичи — много продуктовой кухни.
  • Каналы и подкасты про прикладной AI на русском и английском (выбирай те, где не только хайп, но и разборы).
  • Книга «Designing Machine Learning Systems» Чи Хуен — для понимания инженерной части.

Главное — практика. Сделай свой пет-проект на API: чат-бот по своим заметкам, ассистент по документации, классификатор писем. За пару выходных получишь больше понимания, чем за десять курсов.

Как зайти в AI-продакт

Реалистичные пути:

  • Из обычного продакта — взять AI-фичу в текущем продукте и довести до прода. После этого можно идти по рынку с реальным кейсом.
  • Из аналитика или DS — добавить продуктовое мышление, начать брать на себя приоритизацию и продуктовые решения.
  • Из инжиниринга — пройти путь к продакту через инициативы и ownership на стыке продукта и моделей.

На собесе ждут конкретики: какие модели использовали, как мерили качество, какие были проблемы в проде, как считали стоимость. Хайп без кейсов считывается за пять минут.

Хорошие кейсы для портфолио:

  • собрал eval-набор и описал, как метрики менялись от версии к версии;
  • провёл A/B новой LLM-фичи против контрольной группы;
  • посчитал unit-экономику фичи и принял решение о раскатке;
  • разобрал инцидент с галлюцинациями и описал процесс reincident-prevention.

Частые ошибки

  • Считать AI PM «обычным продактом, но с буквами AI». Без понимания качества и оценки фичи будут выходить плохими.
  • Делать продукт без eval-датасета. Любое улучшение становится спорным.
  • Забывать про экономику инференса. Когда фичу включили на всех, бюджет на API вырос в 30 раз.
  • Полностью полагаться на промпт. Когда задача не решается промптом, нужен RAG, fine-tune или другой подход.
  • Игнорировать UX неопределённости. Пользователь должен видеть, что ответ может быть неточным.
  • Описывать роль AI PM только хайпом и без конкретики на собеседовании.
  • Запускать без guard-rails: токсичность, PII, попытки jailbreak.
  • Сравнивать модели «по ощущениям» без зафиксированного набора кейсов.

Связанные темы

FAQ

Нужно ли AI PM программировать?

Не обязательно писать прод-код, но крутить промпты, дёргать API и собирать прототипы — да. Это входит в обычный набор инструментов.

Чем AI PM отличается от Data PM?

Data PM чаще про инфраструктуру данных, дашборды, self-serve аналитику. AI PM — про модели и фичи, основанные на ML/LLM. Пересечение есть, но фокус разный.

Можно ли стать AI PM с нуля?

Реалистичнее зайти из смежных ролей: продакт без AI-фокуса, аналитик, инженер. Без продакт-опыта или технического бэкграунда вход в AI PM сложный.

Какие модели должен знать AI PM?

Не «знать наизусть», а понимать классы: классические ML-модели для табличных данных, эмбеддинги, LLM, диффузионные. Плюс свежие имена моделей, которые компании используют в проде.

Как доказать на собесе, что разбираешься в LLM?

Конкретными кейсами. «Мы строили eval из 300 запросов, после смены модели accuracy выросла с 72% до 81%, при этом cost-per-query снизилась на 40% — за счёт переноса простых запросов на модель поменьше». Цифры — ориентиры, заменяй на свои.

Кто отвечает за галлюцинации — AI PM или ML-инженер?

Оба, но по-разному. Инженер отвечает за технические рычаги (промпт, RAG, guard-rails). AI PM отвечает за то, чтобы пользователь не пострадал: дисклеймеры, UX неопределённости, процесс работы с инцидентами.

Сколько по деньгам стоит запустить минимальный AI-продукт на LLM?

Прототип на готовом API — десятки долларов в месяц. Прод на тысячах пользователей — сотни-тысячи. Самый дорогой сценарий — массовый чат-помощник без оптимизации, там быстро уходит в шестизначные суммы. Это ориентиры, проверяй на текущий прайс провайдера.


Хочешь в AI-команду — тренируйся в Карьернике: продуктовые кейсы, метрики, ML-вопросы в формате квиза.