ИИ LLM и метод сбора ананасов

Кстати, проверим на системе GigaChat метод из недавно упоминавшейся на dxdt.ru работы про оценку реального интеллекта LLM ИИ. Задача, как говорится, для школьника пятого класса:

“Семен был отправлен собирать урожай крупных ананасов. В первый день он собрал 12 крупных ананасов. Во второй день он собрал в три раза больше крупных ананасов, чем в первый, но восемь из этих ананасов оказались неспелыми. Сколько всего крупных ананасов собрал Семен за два дня?”

И ответ GigaChat (через официального Telegram-бота):

“Сначала определим, сколько ананасов Семен собрал во второй день. По условию задачи, он собрал в три раза больше, чем в первый день:

12 * 3 = 36

Однако из этих 36 ананасов восемь оказались неспелыми, поэтому вычтем их из общего количества:

36 – 8 = 28

Теперь сложим количество ананасов, собранных Семеном за оба дня:

12 + 28 = 40

Итак, Семен собрал всего 40 крупных ананасов за два дня.”

Метод прекрасно сработал. Ответ, очевидно, ИИ дан неверный – ананасов Семён собрал не 40, а 48 крупных.

Почему эта задача для пятого, а не для второго класса (условно)? Потому, что в ней, конечно, присутствует минимальная логическая особенность – упоминание числа, не имеющего отношения к арифметической сути: “но восемь из этих ананасов оказались неспелыми”. Это и есть упомянутый метод: в формулировку добавляется подстрока, содержащая похожие на основную часть слова и числа, но никак не влияющая на решение. Школьные уровни тут использованы лишь как иллюстрация.

Адрес записки: https://dxdt.ru/2024/12/23/14458/

Похожие записки:



Далее - мнения и дискуссии

(Сообщения ниже добавляются читателями сайта, через форму, расположенную в конце страницы.)

Комментарии читателей блога: 2

  • 1 <t> // 24th December 2024, 03:01 // Читатель qwe написал:

    OpenAI o1, первый раз решает так же. Но если намекнуть ей, что задачка с подвохом, передумывает:

    Давайте внимательно посмотрим на формулировку задачи и найдём тот самый «подвох».

    Текст задачи (перефразируя):

    «Семён был отправлен собирать урожай крупных ананасов.
    В первый день он собрал 12 крупных ананасов.
    Во второй день он собрал в три раза больше крупных ананасов, чем в первый,
    но 8 из этих ананасов оказались неспелыми.
    Сколько всего крупных ананасов собрал Семён за два дня?»

    На первый взгляд мы решаем так:

    В первый день — 12 крупных.
    Во второй день 3×12=36 крупных, но 8 из них неспелые, и мы можем подумать, что раз они «неспелые», то не считаются в общий урожай. Тогда получается 36−8=28 «полноценных» крупных ананасов за второй день и всего 12+28=40 за два дня.
    Однако «подвох» в том, что в задаче не сказано, что неспелые ананасы — не крупные. Говорится лишь, что во второй день собрали 36 крупных ананасов, и среди них 8 — неспелые. Но они всё равно крупные! Факт «неспелости» не отменяет их размера.

    То есть все 36 ананасов второго дня — крупные,
    просто у 8 из них есть другой недостаток (неспелость).

    Если вопрос звучит именно так: «Сколько всего крупных ананасов собрал Семён за два дня?», то корректнее ответить:

    В первый день: 12 крупных.
    Во второй день: 36 крупных (из них 8 неспелые, но крупные).
    Следовательно, суммарно крупных ананасов: 12+36=48.
    Итог: «подвох» в том, что наличие/отсутствие спелости не влияет на то, считаем мы ананас «крупным» или нет. Задача спрашивает именно про количество крупных ананасов, а не «спелых крупных». Поэтому правильный ответ — 48.

  • 2 <t> // 24th December 2024, 10:28 // Александр Венедюхин:

    Система от OpenAI вообще выглядит более продвинутой. Возможно, кстати, что и от GigaChat тоже можно добиться каких-то таких “объяснений”. Но, в целом, тот факт, что при помощи одной и той же системы LLM можно получить текст, объясняющий “подвох” задачи, и при этом элементарнейшие задачи такого типа системой стабильно решаются неправильно, свидетельствует о том, что там далеко не “интеллект продвинутого старшего школьника” и никаких задач система реально не решает.

Написать комментарий

Ваш комментарий:

Введите ключевое слово "12DDW" латиницей СПРАВА НАЛЕВО (<--) без кавычек: (это необходимо для защиты от спама).

Если видите "капчу", то решите её. Это необходимо для отправки комментария ("капча" не применяется для зарегистрированных пользователей). Обычно, комментарии поступают на премодерацию, которая нередко занимает продолжительное время.