ИИ LLM и метод сбора ананасов
Кстати, проверим на системе GigaChat метод из недавно упоминавшейся на dxdt.ru работы про оценку реального интеллекта LLM ИИ. Задача, как говорится, для школьника пятого класса:
“Семен был отправлен собирать урожай крупных ананасов. В первый день он собрал 12 крупных ананасов. Во второй день он собрал в три раза больше крупных ананасов, чем в первый, но восемь из этих ананасов оказались неспелыми. Сколько всего крупных ананасов собрал Семен за два дня?”
И ответ GigaChat (через официального Telegram-бота):
“Сначала определим, сколько ананасов Семен собрал во второй день. По условию задачи, он собрал в три раза больше, чем в первый день:
12 * 3 = 36
Однако из этих 36 ананасов восемь оказались неспелыми, поэтому вычтем их из общего количества:
36 – 8 = 28
Теперь сложим количество ананасов, собранных Семеном за оба дня:
12 + 28 = 40
Итак, Семен собрал всего 40 крупных ананасов за два дня.”
Метод прекрасно сработал. Ответ, очевидно, ИИ дан неверный – ананасов Семён собрал не 40, а 48 крупных.
Почему эта задача для пятого, а не для второго класса (условно)? Потому, что в ней, конечно, присутствует минимальная логическая особенность – упоминание числа, не имеющего отношения к арифметической сути: “но восемь из этих ананасов оказались неспелыми”. Это и есть упомянутый метод: в формулировку добавляется подстрока, содержащая похожие на основную часть слова и числа, но никак не влияющая на решение. Школьные уровни тут использованы лишь как иллюстрация.
Адрес записки: https://dxdt.ru/2024/12/23/14458/
Похожие записки:
- Хитрости записи корней уравнений
- Техническое: poison-расширение и SCT-метки в Certificate Transparency
- Задержки пакетов, СУБД, TCP и РЛС
- ИИ и рабочие места
- Австралийские постквантовые криптографические рекомендации
- Реплика: слух человека и преобразование Фурье
- Простой пример "про измерения"
- Автомобили-роботы из "обязательной" сети такси
- Open Source и добавление "вредоносного кода"
- LLM и "Яндекс.Поиск"
- LLM и "решения" задач
Комментарии читателей блога: 2
1 <t> // 24th December 2024, 03:01 // Читатель qwe написал:
OpenAI o1, первый раз решает так же. Но если намекнуть ей, что задачка с подвохом, передумывает:
Давайте внимательно посмотрим на формулировку задачи и найдём тот самый «подвох».
Текст задачи (перефразируя):
«Семён был отправлен собирать урожай крупных ананасов.
В первый день он собрал 12 крупных ананасов.
Во второй день он собрал в три раза больше крупных ананасов, чем в первый,
но 8 из этих ананасов оказались неспелыми.
Сколько всего крупных ананасов собрал Семён за два дня?»
На первый взгляд мы решаем так:
В первый день — 12 крупных.
Во второй день 3×12=36 крупных, но 8 из них неспелые, и мы можем подумать, что раз они «неспелые», то не считаются в общий урожай. Тогда получается 36−8=28 «полноценных» крупных ананасов за второй день и всего 12+28=40 за два дня.
Однако «подвох» в том, что в задаче не сказано, что неспелые ананасы — не крупные. Говорится лишь, что во второй день собрали 36 крупных ананасов, и среди них 8 — неспелые. Но они всё равно крупные! Факт «неспелости» не отменяет их размера.
То есть все 36 ананасов второго дня — крупные,
просто у 8 из них есть другой недостаток (неспелость).
Если вопрос звучит именно так: «Сколько всего крупных ананасов собрал Семён за два дня?», то корректнее ответить:
В первый день: 12 крупных.
Во второй день: 36 крупных (из них 8 неспелые, но крупные).
Следовательно, суммарно крупных ананасов: 12+36=48.
Итог: «подвох» в том, что наличие/отсутствие спелости не влияет на то, считаем мы ананас «крупным» или нет. Задача спрашивает именно про количество крупных ананасов, а не «спелых крупных». Поэтому правильный ответ — 48.
2 <t> // 24th December 2024, 10:28 // Александр Венедюхин:
Система от OpenAI вообще выглядит более продвинутой. Возможно, кстати, что и от GigaChat тоже можно добиться каких-то таких “объяснений”. Но, в целом, тот факт, что при помощи одной и той же системы LLM можно получить текст, объясняющий “подвох” задачи, и при этом элементарнейшие задачи такого типа системой стабильно решаются неправильно, свидетельствует о том, что там далеко не “интеллект продвинутого старшего школьника” и никаких задач система реально не решает.
Написать комментарий