ChatGPT во время исследования провалил более половины вопросов по программированию

Генеративный искусственный интеллект часто ошибается, даже разработчики не рекомендуют их для создания кода программ. Чтобы проверить насколько, команда Университета Пердью в США провела исследование, передает TechSpot.

Курс Python. Python — мова без меж! Розробляй рішення для фінансів, медицини, науки та робототехніки. Відкрий для себе нескінченні можливості з Python та здійсни свої амбіції! Вивчити курс

В общем ChatGPT задали 517 вопросов из Stack Overflow (популярный ресурс вопросов и ответов для профессиональных программистов и энтузиастов). Ответы оценивали не только по правильности, но и по последовательности, исчерпанности и лаконичности.

ChatGPT во время исследования провалил более половины вопросов по программированию

Инструмент OpenAI справился с задачей далеко не отлично. ChatGPT дал лишь 48% правильных ответов, а 77% описали как многословные. При этом стиль и качество определений часто убеждали волонтеров в правильности, хотя это было не так.

Мы заметили, что только тогда, когда ошибка в ответе ChatGPT очевидна, пользователи могут ее идентифицировать.

Однако когда ошибка более комплексная, требующая дополнительных знаний или изучения документации, пользователи часто не способны определить ошибку, или недооценивают ее степень.

Даже если ответ ChatGPT был явно неправильным, двое из 12 участников все равно отдавали предпочтение ему из-за приятного, уверенного и позитивного тона ИИ. Его исчерпывающий и педагогический стиль написания также способствовали тому, что фактически неправильный ответ казался правильным.

Ответы ChatGPT на основе GPT-4 стали хуже за последние месяцы, а GPT-3.5 улучшила результат – исследование

Курс UI/UX Design. Закохайте своїх користувачів у ваш дизайн! Виглядайте стильно та перетворюйте їх у вірних прихильників! Ознайомитись з курсом

Голосуй за переможця конкурсу блогів. Голосування проходить з 25 липня по 8 серпня включно. Головний приз — сучасний ігровий ПК ASGARD (i7 13700, 32Gb RAM, SSD 1Tb, GF RTX 4060Ti 8Gb) від інтернет-магазину click.ua. Віддай свій голос за найкращого! Деталі тут.

ChatGPT во время исследования провалил более половины вопросов по программированию

Популярное

Алексей Яровенко признался, что участие в «Танцах со звездами» едва не разрушило его брак

Metro возвращается после 5 лет тишины? Инсайдеры намекают на громкий сюрприз от 4A Games

«Горжусь своей девочкой»: Траволта показал дочь на ковровой дорожке

По следам Stadia? Amazon Luna возмутила геймеров резким сужением функций

Цибульская на фоне слухов о новом материнстве снялась с беременными

«Горжусь своей девочкой»: Траволта показал дочь на ковровой дорожке

Алексей Яровенко признался, что участие в «Танцах со звездами» едва не разрушило его брак

ChatGPT во время исследования провалил более половины вопросов по программированию

Популярное

Алексей Яровенко признался, что участие в «Танцах со звездами» едва не разрушило его брак

Metro возвращается после 5 лет тишины? Инсайдеры намекают на громкий сюрприз от 4A Games

«Горжусь своей девочкой»: Траволта показал дочь на ковровой дорожке

По следам Stadia? Amazon Luna возмутила геймеров резким сужением функций

Цибульская на фоне слухов о новом материнстве снялась с беременными

«Горжусь своей девочкой»: Траволта показал дочь на ковровой дорожке

Алексей Яровенко признался, что участие в «Танцах со звездами» едва не разрушило его брак

Подпишись на новости