Образование #Статьи

4 июля, 2025

Может ли ИИ сдать экзамен или тест / Skillbox Media

Кажется, броские новостные заголовки о том, что ChatGPT справился с очередным сложным тестом, ничего не говорят о реальных возможностях нейросетей.

Научитесь: Профессия Методист с нуля до PRO

Узнать больше

За последние шесть месяцев мы стали свидетелями множества новостей о том, как ChatGPT и аналогичные боты на основе больших языковых моделей с разным уровнем успеха справляются с комплексными онлайн-экзаменами, включая тесты по медицине и бизнес-менеджменту. На первый взгляд, это может показаться триумфом искусственного интеллекта над человеческими возможностями. Если AI успешно проходит такие испытания, это может создать впечатление, что он действительно обладает умением и пониманием.

Исполнительный директор по исследованиям в области наук об обучении в Digital Promise и член Международного общества наук об обучении Джереми Рошель не согласен с утверждением, что способности искусственного интеллекта можно сравнивать с человеческими. В своей колонке для блога Ассоциации вычислительной техники он подчеркивает некорректность подобных сравнений, особенно в контексте сдачи экзаменов. Рошель акцентирует внимание на том, что ИИ и человек обладают fundamentally различными подходами к обучению и оценке знаний. Искусственный интеллект оперирует алгоритмами и данными, в то время как человеческое познание включает в себя эмоциональные и социальные аспекты. Такой анализ делает очевидным, что сравнение результатов ИИ и человека в образовательном контексте не отражает реальной картины.

Исполнительный директор по исследованиям в области наук об обучении в Digital Promise и член Международного общества наук об обучении обладает значительным опытом в сфере образовательных технологий и научных исследований. Его деятельность направлена на улучшение качества образования с использованием инновационных методов и подходов. В рамках своей работы он активно участвует в разработке и внедрении эффективных образовательных практик, способствующих развитию науки об обучении. Членство в Международном обществе наук об обучении подчеркивает его приверженность к международному сотрудничеству и обмену знаниями в данной области.

Почему не стоит доверять результатам тестов ChatGPT

Джереми Рошель предлагает вспомнить процесс создания экзаменационных тестов, особенно в контексте американской системы образования, которые иногда так успешно решает ChatGPT. Понимание этого процесса поможет оценить, как искусственный интеллект справляется с заданиями и какие методики используются для разработки тестов, что важно для дальнейшего их совершенствования.

Основой тестирования является психометрика и современные методы оценки. Эти методы позволяют определить вероятность правильного ответа респондентов на задания различной сложности. Процесс разработки тестов начинается с создания обширного банка экзаменационных заданий. Эти задания затем тестируются на группе реальных учащихся, а не на машинах. На основе полученных результатов специалисты оценивают, насколько эффективно тест может различать уровень знаний и способностей участников в конкретной области. Важно, чтобы тестовые задания действительно отражали способности испытуемых. Поэтому задания, которые не дают информации о различиях в знаниях, исключаются из экзамена, а те, которые эффективно выполняют эту задачу, сохраняются. Такой подход обеспечивает высокую точность и надежность тестирования.

Валидность экзамена как мера человеческих способностей оценивается на основе эмпирических данных. Важно отметить, что современная теория тестирования не предоставляет гарантий, что эта валидность применима к испытуемым, которые не являются людьми, например, к алгоритмам искусственного интеллекта или гипотетическим пришельцам. Поскольку модели ИИ реагируют на тестовые задания по-другому, чем люди, нельзя утверждать, что высокий балл в тесте свидетельствует о высоком уровне интеллекта модели ИИ. Современная теория тестирования не располагает необходимыми данными для точного различения между высокоразвитыми и менее глубокомыслящими моделями ИИ.

Исследователь подчеркивает еще одну важную особенность тестов, которая затрудняет сравнение способностей «роботов» и людей: выводы, сделанные разработчиками на основе ограниченного числа задач и их форматов, требуют подтверждения. Это означает, что необходимо сравнить результаты с другими метриками. Если метрики показывают схожесть, можно предположить, что выводы верны. Однако другие метрики, как правило, связаны с человеческими способностями, знаниями и навыками, а не с искусственным интеллектом. Таким образом, для полноценного анализа необходимо учитывать контекст и разнообразие человеческого опыта, что делает сравнение с ИИ еще более сложным.

Кадр: фильм «Робот и Фрэнк» / Dog Run Pictures / Park Pictures

Джереми Рошель подчеркивает, что не существует гарантии, что выводы, полученные на основе определенного набора задач, таких как тесты по юриспруденции, будут справедливы для испытуемых, не относящихся к человеческому виду. Это ставит под сомнение точность оценки знаний, навыков и способностей, необходимых для успешной карьеры в юриспруденции.

Читайте также:

Психометрики объяснили, как эффективно применять нейросети для создания учебных тестов. Использование нейросетевых технологий в образовательном процессе открывает новые возможности для разработки качественных и адаптивных тестовых материалов. Нейросети позволяют анализировать большие объемы данных о студентах, выявлять их сильные и слабые стороны, а также предлагать индивидуализированные задания. Это делает процесс обучения более персонализированным и эффективным. Внедрение нейросетей в психометрику способствует более точной оценке знаний и навыков учащихся, что в конечном итоге приводит к улучшению образовательных результатов.

Почему ИИ дилетант, а не эксперт

Если тесты для искусственного интеллекта не предназначены, то почему чат-боты на основе ИИ успешно их преодолевают? Ответ заключается в том, что многие тесты являются стандартизированными. Они имеют схожую форму, структуру и содержание, что значительно упрощает задачу для искусственного интеллекта. Стандартизированные тесты позволяют ИИ легче распознавать шаблоны и закономерности, что способствует более высокой точности ответов. Это подчеркивает важность адаптации тестов для более сложных и разнообразных сценариев, чтобы действительно оценить способности ИИ.

Эксперт отмечает, что его больше впечатляет способность ChatGPT взаимодействовать с людьми в неструктурированных диалогах, чем результаты на стандартизированных тестах. Стандартизированные тесты имеют четкие рамки и предсказуемую структуру, что делает их менее показательными для оценки реальных навыков. Вопрос в том, почему кто-то может считать модель ИИ, успешно справляющуюся со стандартизированными тестами, более эффективной, чем та, которая демонстрирует высокий уровень работы в сложных и нестандартных ситуациях. Это подчеркивает важность гибкости и адаптивности ИИ в реальных взаимодействиях.

Джереми Рошель иллюстрирует, почему искусственный интеллект не может считаться экспертом, на примере встречи с попутчиком — маляром, который проявлял интерес к физике. Несмотря на то, что он самостоятельно изучал физику через энциклопедии и старался связать различные темы, его знания не имели системного подхода. Хотя маляр обладал определенной эрудицией в этой области, основное отличие от настоящего физика-эксперта было очевидным: он не мог организовать свои знания в единую структуру. Глубина понимания науки определяется именно способностью профессионала осмысливать логику и взаимосвязи явлений, связывая их с основополагающими принципами физики. Поэтому искусственный интеллект, несмотря на свои возможности обработки информации, не способен достичь такого уровня понимания, как квалифицированный специалист.

Фото: фильм «Игры разумов» / Fastnet Films / Icon Entertainmnet

Современные большие языковые модели напоминают физиков-дилетантов: они способны отвечать на вопросы, но не имеют глубокого понимания предмета. Нейросети уверенно оперируют последовательностью слов в предложениях, однако им недостает истинной компетентности в рассматриваемых темах. По мнению Джереми Рошеля, до достижения полноценного понимания этих систем ещё далеко.

Способность модели или алгоритма искусственного интеллекта пройти «человеческий» тест не является надежным показателем того, что она обладает знаниями, сопоставимыми с экспертом. В настоящее время генеративный ИИ больше напоминает художника, чем мы готовы осознать. Сообщения о том, что ИИ успешно проходит тесты, вводят в заблуждение, так как упрощают суть экспертного знания в разных областях. Эта ситуация подчеркивает важность глубокого понимания и опыта, которые не могут быть заменены поверхностным уровнем навыков, демонстрируемым искусственным интеллектом.

Рошель убежден, что с этой проблемой необходимо активно бороться. Ученые должны доносить до широкой аудитории информацию о том, что экзамены не являются надежным инструментом для оценки сильных сторон искусственного интеллекта, а сравнение его результатов с человеческими зачастую нецелесообразно. Важная роль в этом процессе отводится и специалистам в области образования: их задача заключается в разработке новых форматов экзаменов и методов оценки навыков и знаний, которые будут более адекватно отражать реальный уровень компетенций.

Узнайте больше об образовании в нашем телеграм-канале. Присоединяйтесь к нам!

Читайте также:

  • Новый уровень ИИ: что такое AGI, когда он появится и каким будет
  • Разработка учебных тестов: инструкция, как это сделать
  • 6 причин, зачем психометрика нужна в EdTech
  • Как применять ChatGPT в образовании: большой обзор от экспертов

Профессия Методист с нуля до PRO

Вы прокачаете навыки в разработке учебных программ для онлайн- и офлайн-курсов. Освоите современные педагогические практики, структурируете опыт и станете более востребованным специалистом.

Узнать подробнее