ГРУППА КОМПАНИЙ ОПТИМА

optima.az

Искусственные интеллекты проходят экзамены так же, как и люди

Тест Тьюринга и искусственный интеллект

Тест Тьюринга — это классический метод оценки способности искусственного интеллекта общаться так, чтобы его невозможно было отличить от человека. В рамках теста человек-судья ведёт текстовый диалог с компьютером, а система старается убедить его в том, что она человек. Если судья не может надёжно определить, с кем он общается, считается, что машина прошла тест. В 2014 году чат-бот по имени Eugene Goostman сумел в ряде диалогов ввести судей в заблуждение. В последние годы модели вроде ChatGPT стали значительно убедительнее в разговорной речи. Новые версии способны формировать ответы, которые выглядят естественно и учитывают контекст, что делает их сильными кандидатами для подобных проверок. Однако на сегодняшний день ни одна модель ИИ официально не прошла строгий и полностью контролируемый тест Тьюринга.

Что такое Humanity’s Last Exam (HLE)?

Humanity’s Last Exam (HLE) — это современный бенчмарк, созданный для проверки продвинутых логических и интеллектуальных способностей искусственного интеллекта. Экзамен включает около 2500 вопросов экспертного уровня и охватывает широкий спектр дисциплин, включая математику, физику, биологию, медицину, гуманитарные науки, информатику, инженерию и химию. Примерно 14 процентов заданий содержат визуальные элементы — графики, диаграммы и изображения — и требуют от моделей сочетать текстовое и визуальное мышление.

В отличие от традиционных тестов, HLE делает акцент на сложных многоуровневых задачах, а не на распознавании шаблонов. Именно поэтому многие исследователи называют его «последним экзаменом для человечества». Если искусственный интеллект когда-либо достигнет уровня человеческих экспертов в этом тесте, это будет означать серьёзный шаг к человеческому уровню интеллекта.

İİ Test

Результаты ведущих моделей ИИ

На данный момент ни одна система искусственного интеллекта не достигла уровня человеческих экспертов в Humanity’s Last Exam. Среди оцениваемых моделей одним из лучших результатов может похвастаться Google Gemini 3 Pro — около 37,5 процента правильных ответов. За ним следует GPT-5 Pro от OpenAI с показателем примерно 31,6 процента, а модель Claude 4.5 от Anthropic набирает около 25,2 процента. Другие известные системы, такие как Mistral, Llama и корпоративные модели, показывают более низкие результаты.

Для сравнения, человеческие эксперты обычно набирают около 90 процентов на том же экзамене. Этот разрыв подчёркивает разницу между внешней осведомлённостью и глубоким пониманием. Хотя ИИ способен обрабатывать огромные объёмы информации, ему всё ещё не хватает интуиции, гибкого мышления и творческого подхода.

В то же время результаты в тестах, подобных тесту Тьюринга, выглядят несколько иначе. Современные разговорные модели могут быть очень убедительными в кратких диалогах, иногда создавая ответы, которые трудно отличить от человеческих. Однако это не означает, что ИИ достиг полноценного человеческого интеллекта — скорее, это показывает, что беглость речи сама по себе не является показателем глубокого понимания.

İİ Test

Что высокие результаты ИИ могут означать для человечества

Если в будущем системы искусственного интеллекта начнут показывать человеческий уровень или даже превосходить его в тестах вроде Humanity’s Last Exam, это станет переломным моментом в истории технологий. Такой прогресс может существенно повлиять на научные исследования, образование, медицину и процессы принятия решений. ИИ сможет помогать в сложной диагностике, ускорять научные открытия и предоставлять экспертный анализ в разных областях.

Одновременно с этим возникнут важные вопросы о роли человека в мире, где машины способны рассуждать на сопоставимом уровне. Рабочие процессы, образовательные системы и креативные индустрии могут значительно измениться. Высокие показатели ИИ станут не только огромной возможностью, но и серьёзной ответственностью, требующей осмысленного и осторожного применения таких технологий.

В конечном итоге экзамены для ИИ, такие как тест Тьюринга и Humanity’s Last Exam, напоминают нам о стремительном развитии искусственного интеллекта. Хотя современные модели пока не превзошли человеческих экспертов, их прогресс показывает, что граница между человеческим и машинным интеллектом будет постепенно стираться, формируя будущее человечества.


Есть вопросы по автоматизации бизнеса? Давайте обсудим!

ОПТИМА - вы можете получить консультацию специалистов, уточнить цены и заказать решение. Свяжитесь с нами по телефону или закажите звонок.

+994 12 310 26 27