Транскрипт: Формулирование задачи и выбор LLM

👤 Знакомство со спикером и обзор модуля

00:06 Коллеги, привет. Меня зовут Ермакова Елизавета, и сегодня я с вами на втором модуле курса, в котором мы поговорим о нейросетях для работы с текстом. Немного представлюсь. Меня зовут Ермакова Елизавета, и я работаю в компании МТС Искусственный интеллект.

00:23 В сфере искусственного интеллекта я с две тысячи восемнадцатого года. Начинала свою карьеру с построения команд разметки для моделей искусственного интеллекта, компьютерного зрения, NLP и так далее. Также входила в качестве эксперта в трек «Данные» альянса по искусственному интеллекту и участвовала в редактировании первой версии стратегии ИИ Российской Федерации. Последние пять лет занимаюсь исследованиями рынка ИИ для b2b-компаний и являюсь старшим менеджером продукта в направлении LLM-продуктов. Мой продукт — решение поиска по корпоративным базам знаний, в котором мы очень активно используем LLM.

01:07 Коротко о нашем модуле. Он разбит на три урока. В первом уроке мы рассмотрим основы постановки задач LLM-моделям, сформулируем принципы формулировки задач и разберёмся, как выбирать LLM-модели для их выполнения. Во втором уроке углубимся в принципы составления промтов — пройдёмся по техникам и лайфхакам. В третьем уроке разберём более сложные цепочки задач и составление промтов для них.

01:43 Будут лайфхаки о том, что делать, если вам лень искать или писать промты. Также расскажу про новинки в ИИ — рассуждающие модели и как с ними работать. Скажу о том, когда самостоятельно справиться уже сложно и нужно обратиться к технических специалистам. Итак, давайте перейдём к первому уроку. В результате мы с вами научимся формулировать задачи для LLM-модели, а также выбирать модели под свои задачи.

💡 LLM как «сотрудник» — метафора делегирования

02:19 Напомним: в данном курсе и модуле мы работаем исключительно с LLM-моделями — текстовыми, генеративными. К визуальным переходить не будем. LLM — достаточно мощный инструмент. Предлагаю метафору: LLM можно рассмотреть как вашего сотрудника.

02:45 Он может выдавать ошибки стохастичности — не всегда быть управляемым. Но благодаря промптингу и нашим урокам мы попробуем этим «сотрудником» поуправлять и получить нужный результат. Давайте представим, что LLM — наш сотрудник, исполнитель задачи. Для перехода к формулированию промтов представьте, что вы руководитель, которому нужно постоянно делегировать задачи ассистенту или команде — и не просто давать задачи, но и получать нужный результат.

03:38 Если у вас нет опыта руководства командой, но вы обращаетесь к соседним отделам или коллегам за помощью — вы тоже можете вспомнить этот опыт. Ну, или вспомните бытовую ситуацию: заказать кейтеринг, вызвать клининг на дом — вы чётко понимаете, что нужно сделать и какой результат получить. Это и есть делегирование.

03:58 Для успешного делегирования очень важно в первую очередь сформулировать: что вам нужно, какая цель, какие задачи нужно выполнить, что вы хотите получить в итоге — образ результата. Например: отчёт с конкретными данными, определённого качества, ограниченного объёма и в нужном формате.

Ключевая мысль: Чем точнее вы формулируете задачу и образ результата, тем лучше работает LLM. Критерии качества («что вы не примете и отправите на переделку») — обязательная часть промта.

04:40 Как вы поймёте, что результат подходит? Какие критерии качества вы предъявляете? Что не примете и отправите на переделку? После того как вы понимаете задачу — нужно выбрать правильного исполнителя. В нашем случае это модель. Нужно понять: достаточно ли у неё компетенций, справится ли она с нужным объёмом, и не слишком ли она «умная» — то есть дорогостоящая для данной задачи.

05:14 Итак, мы учитываем компетенции модели, её надёжность и стоимость. После постановки задачи и выбора модели начинается контроль: чётко ставите задачу, получаете обратную связь от модели, помогаете ей, контролируете результат в процессе и принимаете работу. В первом уроке мы поговорим про постановку задачи и выбор модели. Третий пункт — контроль — рассмотрим подробнее во втором и третьем уроке.

✍️ Шаблон промта: роль, задача, контекст, данные

06:03 Остановимся на формулировании задачи. На слайде вы видите костяк — шаблон промта. В первом уроке вы уже подробно останавливались на теме роли. Напомню: чем классно работать с LLM-моделями — это не просто сотрудник с ограниченными компетенциями, а «сотрудник-хамелеон», которому можно приписать любую роль и сделать его суперклассным специалистом для конкретной задачи. При формулировании задачи можно пофантазировать о том, в какой роли будет действовать ваша LLM-модель.

06:39 Подробнее на роли останавливаться не буду — в предыдущем уроке вы уже научились это делать. Далее нужно сформулировать саму задачу: что нужно сделать, дать инструкцию — какие шаги нужно предпринять модели. Она немного похожа на джуна, которому нужно рассказать про шаги. Можно добавить контекст — всё, что считаете нужным упомянуть: например, что отчёт будет для совета директоров.

07:12 Также — данные, которые вы хотите дать модели на вход. Может быть, вы хотите снабдить её шаблонами или текстом, который нужно переписать или использовать в качестве примера. Этот текст может быть совсем маленьким, а может состоять из трёх-четырёх и более файлов. В коммерческой эксплуатации — это целые системы и базы знаний.

07:40 И, соответственно, критерии к выходным данным — наш образ результата. Требование к формату: например, заполни файл из входных данных. Количество слов, объём текста. Также могут быть элементы про стилистику — в какой стилистике вы хотите, чтобы был написан текст. Подробнее остановимся на этом в следующих уроках.

08:10 Предлагаю коротко остановиться на типах задач. В результате формулировки задачи у вас должно быть чёткое понимание — сколько входного текста вы хотите передать модели. Это критически важно для выбора модели. В рамках описания задачи вы понимаете, что модель должна: проанализировать, извлечь ключевую информацию, предложить решение, сгенерировать идеи. Либо создать отчёты, рекламные тексты. Либо взять исходный текст и выполнить перевод, реферирование и так далее.

Типы задач LLM: анализ текста, генерация текста, трансформация (перевод, реферирование). Чем больше сочетание задач — тем умнее и надёжнее нужна модель.

09:00 Это уровни сложности задач, которые LLM предстоит решить. Иногда в рамках вашей задачи она может использовать и анализ, и генерацию, и реферирование — всё вместе. Чем больше такое сочетание, чем больше вы просите модель рассуждать и генерировать, тем умнее и надёжнее она должна быть.

09:30 Итак, у нас есть задача, есть описание задачи в виде промта. Мы понимаем, какой объём текста хотим положить в модель и что хотим получить на выходе. Мы понимаем уровень сложности задач. Имея эти вводные, можно переходить к выбору LLM-модели.

⚙️ Как выбирать LLM: контекстное окно, параметры, специфика

10:35 Для выбора модели обращайтесь к описаниям моделей и смотрите на три ключевых параметра. Первые два наиболее важны: размер контекстного окна, количество параметров модели и специфические требования. Разберём каждый из них.

10:58 Размер контекстного окна. Измеряется в тысячах и в описании моделей сокращается: 4K, 8K, 16K, 32K, 128K, 100K и так далее. Сейчас появляется всё больше моделей с большим контекстным окном. Чем шире контекстное окно — тем больше текста можно дать модели на вход и получить на выходе. Также это означает: вы будете больше платить за токены.

12:00 Токен — это единица контекста, в которой производятся взаиморасчёты. Чем больше контекста вы положите в модель, тем больше придётся заплатить. Например, в моделях МТС AI один токен — это примерно два с половиной символа. В контекстном окне на 4 000 токенов помещается около пяти с половиной страниц текста формата A4.

12:50 Количество параметров. Чем больше параметров — тем умнее модель в среднем по рынку. Это не абсолютное правило, но общий ориентир. Параметры измеряются в миллиардах. При поиске и выборе модели обращайте внимание на этот показатель в её характеристиках.

Итог: Чем больше текста хотите передать и получить, и чем сложнее задачи (анализ + генерация + рассуждение) — тем больше параметров вам нужно и тем шире должно быть контекстное окно.

13:45 Помимо этого, при выборе смотрите на специфические требования: нужна ли вам поддержка другого языка (мультиязыковая модель), нужен ли поиск и фактчекинг по данным интернета. Это тоже влияет на выбор модели.

14:10 Отдельная тема — корпоративное использование. Если вы работаете в корпорации и хотите использовать данные компании, учитывайте это при выборе. Конфиденциальные данные находятся под NDA. Нельзя их передавать в публичные модели. Есть много прецедентов, когда по неосторожности сотрудники больших компаний отправляли данные в ChatGPT — и эти данные могли стать частью модели и теоретически оказаться у другого пользователя. Это нарушение — возникают судебные случаи.

15:10 Если вы работаете на себя с данными клиентов — убедитесь, что в передаваемых данных нет персональных данных и у вас есть все согласия на их обработку. Также, если вы хотите интегрировать модель в свой сервис или сайт, лучше обращаться к специальным компаниям, которые этим занимаются, а не делать самостоятельно.

15:50 И последний фактор — качество работы моделей: насколько хорошо модель справляется с теми или иными задачами. Давайте рассмотрим выбор моделей на примере ChatGPT. Предлагаю учесть все параметры: количество параметров, ширину контекстного окна, а также доступность модели — как по API (для интеграции), так и для самостоятельной работы без технических специалистов.

16:40 Продолжая о моделях семейства ChatGPT: они доступны в России. Не обязательно изыскивать способы оплаты зарубежными картами — можно обратиться к Telegram-ботам, которые качественно работают. Здесь пара ссылок на них. Также можно оплатить API или использовать ChatGPT, Claude, Gemini от Google в таких решениях, как AlpinaGPT, где эти модели доступны и их можно просто подключать в свой чат.

🔬 Бенчмарк MERA и Perplexity для сравнения моделей

17:20 В России есть основной бенчмарк — таблица сравнения моделей. Он называется MERA (сделан коллегами из Альянса по искусственному интеллекту). В нём представлены не только российские, но и зарубежные, и open-source модели. Выбран большой класс задач, по которым модели сравниваются. По среднему общему весу можно выбрать качественную модель.

18:00 В бенчмарке есть GigaChat, KT Pro (модель МТС AI), модели T-bank (T-pro), Mistral и другие open-source. В MERA можно выбрать задачи для сравнения и оценить, какая модель лучше справляется именно с вашими задачами.

18:45 Как пользоваться MERA: выбирайте способ замера — по умолчанию подходит «генеративный». Выбирайте модели по количеству параметров — насколько умные нужны. Можно указать, есть ли у модели веб-интерфейс (webchat). Самое интересное — выбор задач. Выбирайте под те задачи, которые вам нужны.

19:30 Также можно выбирать домены: из какой области знаний нужна модель. Есть модели, которые хороши в инженерии, а есть — которые лучше отвечают на вопросы по географии, химии, юриспруденции. Это очень полезно при целевом выборе под конкретную бизнес-задачу.

20:05 Открытые задачи в MERA полезны, если вы хотите использовать модели, которые умеют работать со сложными темами — острой политикой, гендерным неравенством и так далее. Это важно, когда вы встраиваете модель в сервис, где она общается с вашими клиентами, и хотите, чтобы она умела обрабатывать каверзные вопросы.

20:50 Важно: в MERA можно выгрузить результаты в таблицу. Это полезно, если вы — сотрудник компании и хотите аргументировать закупку конкретного решения. Можно прийти и предложить компании модель, установленную «контур-компании» — внутри периметра, чтобы данные не выходили наружу. Эту таблицу можно использовать как аргументацию для бизнес-кейса.

21:40 Учитывая все параметры, можно попросить Perplexity собрать сравнительную таблицу. Perplexity умеет ходить в интернет и проверять информацию. Шапка таблицы: количество параметров, размер контекстного окна, тип (проприетарный или open-source), основные задачи, доступность, цена.

22:20 Проприетарные модели — KT Pro (МТС AI), GigaChat (Сбер), Яндекс — разрабатываются компанией самостоятельно. Open-source — например, Mistral — открытые, их разрабатывают разные разработчики и выкладывают в открытый доступ. Для личного использования это не так важно. Для бизнеса — важнее: вы всегда контролируете, как они меняются.

23:05 Есть платные и бесплатные версии. KT Pro — только платные. GigaChat и ChatGPT — есть и бесплатные, и платные. Perplexity выдаёт таблицу с качеством по MERA, добавляет рекомендации, указывает место в топ-3 или топ-10. За 5–7 запросов можно собрать такую таблицу, периодически корректируя запрос.

23:50 Почему я рассказываю именно об этом инструменте? Моделей выходит очень много. Все компании их обновляют и следят за рынком. Таблица, которая окажется у вас в руках, к сожалению, недолго сохранит свою актуальность — поэтому я даю инструмент, чтобы вы могли обновить её самостоятельно. Особенно полезно для корпораций, где процесс закупки строго регламентирован и нужно аргументировать выбор.

24:40 Важное дополнение: в эту таблицу можно добавить решения класса AlpinaGPT — агрегаторы разных моделей. Такие решения очень удобны, когда вам не нужно искать доступы по разным местам — в одном месте выбираете нужную модель и работаете. Их тоже можно заносить в сравнительные таблицы при выборе.

✅ Итоги урока и следующие шаги

25:45 Итак, первый урок подходит к концу. Кажется, мы с вами точно научились: как формулировать задачу на старте и почему это важно, как учитывать объём текста и сложность задачи, как выбирать модель и на что обращать внимание. В следующем уроке мы разберём, как ставить задачу корректно с первого раза, как её корректировать и получать стабильные результаты. Цель — научиться давать правильные вопросы модели и вносить корректировки.

Три ключевых навыка урока: (1) Формулировать задачу с ролью, инструкцией, контекстом и критериями результата. (2) Оценивать объём входных данных и сложность задачи перед выбором модели. (3) Выбирать LLM по контекстному окну, количеству параметров и специфическим требованиям, используя MERA и Perplexity для сравнения.