Большие языковые модели — это не люди. Давайте перестанем проверять их так, как если бы они были.

Поскольку надежды и опасения по поводу этой технологии разрастаются, пришло время договориться о том, что она может и чего не может.

Когда Тейлор Уэбб поэкспериментировал с GPT-3 в начале 2022 года, он был потрясен тем, на что способна большая языковая модель OpenAI. Это была нейронная сеть, обученная только предсказывать следующее слово в блоке текста — подпрыгивающее автозаполнение. И все же он давал правильные ответы на многие абстрактные задачи, поставленные перед ним Уэббом, — такие, которые можно найти в тесте на IQ. «Я был действительно шокирован его способностью решать эти проблемы», — говорит он. «Это полностью перевернуло все, что я мог предсказать».

Уэбб — психолог из Калифорнийского университета в Лос-Анджелесе, изучающий различные способы решения абстрактных задач людьми и компьютерами. Он привык создавать нейронные сети, в которых были закреплены особые способности к рассуждению. Но GPT-3, похоже, выучил их бесплатно.

Эксклюзивные беседы, которые переносят нас за кулисы культурного явления.

В прошлом месяце Уэбб и его коллеги опубликовали в журнале Nature статью, в которой описывают способность GPT-3 проходить различные тесты, разработанные для оценки использования аналогии для решения проблем (известные как рассуждение по аналогии). В некоторых из этих тестов GPT-3 показал лучшие результаты, чем группа студентов. «Аналогия занимает центральное место в человеческом рассуждении», — говорит Уэбб. «Мы считаем это одной из главных вещей, которые должен продемонстрировать любой вид машинного интеллекта».

То, что подчеркивает исследование Уэбба, является лишь последним в длинной череде замечательных трюков, реализованных с помощью больших языковых моделей. Например, когда в марте OpenAI представила преемника GPT-3, GPT-4, компания опубликовала потрясающий список профессиональных и академических оценок, которые, по ее утверждению, получила ее новая модель большого языка, включая пару дюжин школьных тестов. и экзамен на адвоката. Позже OpenAI работала с Microsoft, чтобы показать, что GPT-4 может пройти часть экзамена на медицинскую лицензию США.

Многие исследователи заявляют, что показали, что большие языковые модели могут пройти тесты, предназначенные для выявления определенных когнитивных способностей у людей, от цепочки мыслей (поэтапное решение проблемы) до теории разума (угадывание того, что думают другие люди). ).

Подобные результаты подпитывают машину ажиотажа, предсказывающую, что эти машины скоро придут на смену «белым воротничкам», заменив учителей, врачей, журналистов и юристов. Джеффри Хинтон назвал очевидную способность GPT-4 объединять мысли одной из причин, по которой он теперь боится технологии, которую он помог создать.

Но есть проблема: нет единого мнения о том, что на самом деле означают эти результаты. Некоторые люди ослеплены тем, что они видят как проблески человеческого интеллекта; другие ни капельки не убеждены.

«Существует несколько критических проблем с современными методами оценки больших языковых моделей», — говорит Натали Шапира, ученый-компьютерщик из Университета Бар-Илан в Рамат-Гане, Израиль. «Это создает иллюзию, что у них больше возможностей, чем есть на самом деле».

Вот почему все большее число исследователей — компьютерщиков, когнитивистов, нейробиологов, лингвистов — хотят пересмотреть способы их оценки, призывая к более строгой и исчерпывающей оценке. Некоторые считают, что практика оценки машин в ходе испытаний на людях ошибочна, и точка, и от нее следует отказаться.

«Люди проводят тесты человеческого интеллекта — тесты IQ и так далее — для машин с самого начала ИИ», — говорит Мелани Митчелл, исследователь искусственного интеллекта из Института Санта-Фе в Нью-Мексико. «Проблема заключалась в том, что означает тестирование такой машины. Это не означает то же самое, что означает для человека».

«Происходит много антропоморфизации», — говорит она. «И это как бы влияет на то, как мы думаем об этих системах и как мы их тестируем».

Учитывая, что надежды и опасения по поводу этой технологии находятся на рекордно высоком уровне, крайне важно, чтобы мы получили четкое представление о том, что могут и чего не могут делать большие языковые модели.