В течение последнего десятилетия специалист по проблемам сложности Питер Турчин работал с коллегами над тем, чтобы собрать воедино самые актуальные и структурированные знания об истории человечества в одном месте: Глобальном историческом банке данных Seshat.
За последний год вместе с учёным-компьютерщиком Марией дель Рио-Чаноной он начал задаваться вопросом, могут ли чат-боты на основе искусственного интеллекта помочь историкам и археологам собирать данные и лучше понимать прошлое. В качестве первого шага они хотели оценить понимание исторических знаний инструментами ИИ.
В сотрудничестве с международной группой экспертов они решили оценить исторические знания современных моделей искусственного интеллекта, таких как ChatGPT-4, Llama и Gemini.
«Крупные языковые модели (LLM), такие как ChatGPT, добились огромного успеха в некоторых областях — например, они в значительной степени преуспели, заменив помощников юристов», — говорит Турчин, возглавляющий исследовательскую группу Complexity Science Hub (CSH) по социальной сложности и коллапсу.
«Но когда дело доходит до вынесения суждений о характеристиках прошлых обществ, особенно тех, которые находились за пределами Северной Америки и Западной Европы, их способность делать это гораздо более ограничена.
«Одним из удивительных открытий, сделанных в ходе этого исследования, стало то, насколько плохи были эти модели. Этот результат показывает, что искусственный «интеллект» весьма специфичен для определенной области. Магистры права преуспевают в некоторых контекстах, но очень плохо, по сравнению с людьми, в других».
Результаты исследования были недавно представлены на конференции NeurIPS в Ванкувере. GPT-4 Turbo, самая эффективная модель, набрала 46% в тесте с четырьмя вариантами ответов.
По словам Турчина и его команды, хотя эти результаты и являются улучшением по сравнению с базовым показателем в 25% случайных угадываний, они подчеркивают значительные пробелы в понимании ИИ исторических знаний.
«Я думал, что чат-боты на основе искусственного интеллекта справятся намного лучше», — говорит дель Рио-Чанона, автор-корреспондент исследования. «История часто рассматривается как факт, но иногда для её понимания необходима интерпретация», — добавляет дель Рио-Чанона, приглашенный преподаватель CSH и доцент University College London.
Установление ориентира для LLM
Эта новая оценка, первая в своём роде, бросила вызов этим системам ИИ, чтобы ответить на вопросы на уровне выпускников и экспертов, аналогичные тем, на которые даются ответы в Seshat (и исследователи использовали знания в Seshat, чтобы проверить точность ответов ИИ). Seshat — это обширный, основанный на доказательствах ресурс, который собирает исторические знания по 600 обществам по всему миру, охватывая более 36 000 точек данных и более 2700 научных ссылок.
«Мы хотели установить эталон для оценки способности этих магистров права владеть знаниями истории на уровне эксперта», — объясняет первый автор Якоб Хаузер, научный сотрудник CSH.
«Банк данных Seshat позволяет нам выйти за рамки вопросов «общего знания». Ключевым компонентом нашего теста является то, что мы не только проверяем, могут ли эти LLM идентифицировать правильные факты, но и прямо спрашиваем, можно ли доказать факт или вывести его из косвенных доказательств».
Различия по временным периодам и географическим регионам
Тест также раскрывает другие важные сведения о способности современных чат-ботов — в общей сложности семи моделей из семейств Gemini, OpenAI и Llama — понимать мировую историю. Например, они были наиболее точны в ответах на вопросы о древней истории, особенно с 8000 г. до н. э. по 3000 г. до н. э.
Однако их точность резко снизилась в более поздние периоды, при этом наибольшие пробелы в понимании событий наблюдаются с 1500 г. н. э. по настоящее время.
Кроме того, результаты подчеркивают различия в эффективности моделей в разных географических регионах. Модели OpenAI показали лучшие результаты для Латинской Америки и Карибского бассейна, тогда как Llama показала лучшие результаты для Северной Америки.
Результаты моделей OpenAI и Llama оказались хуже для стран Африки к югу от Сахары. Llama также показала плохие результаты для Океании. Это говорит о возможных предубеждениях в обучающих данных, которые могут переоценивать определенные исторические нарративы, игнорируя другие, согласно исследованию.
Лучше в правовой системе, хуже в дискриминации
Тест также выявил различия в производительности по категориям. Модели показали наилучшие результаты в правовых системах и социальной сложности. «Но они испытывали трудности с такими темами, как дискриминация и социальная мобильность», — говорит дель Рио-Чанона.
«Главный вывод из этого исследования заключается в том, что LLM, хотя и впечатляющие, все ещё не обладают глубиной понимания, необходимой для углубленной истории. Они отлично справляются с базовыми фактами, но когда дело доходит до более тонких исторических исследований на уровне доктора философии, они ещё не готовы к этой задаче», — добавляет дель Рио-Чанона.
По данным теста, лучше всего показала себя модель GPT-4 Turbo со сбалансированной точностью 46%, а самой слабой оказалась модель Llama-3.1-8B с точностью 33,6%.
Следующие шаги
Дель Рио-Чанона и другие исследователи — из CSH, Оксфордского университета и Института Алана Тьюринга — намерены расширить набор данных и улучшить бенчмарк. По словам Хаузера, они планируют включить больше данных из недостаточно представленных регионов и включить более сложные исторические вопросы.
«Мы планируем продолжить совершенствование эталонного теста путём интеграции дополнительных точек данных из различных регионов, особенно с Глобального Юга. Мы также с нетерпением ждём возможности протестировать более новые модели LLM, такие как o3, чтобы увидеть, смогут ли они заполнить пробелы, выявленные в этом исследовании», — говорит Хаузер.
Учёный CSH подчеркивает, что результаты бенчмарка могут быть ценны как для историков, так и для разработчиков ИИ. Для историков, археологов и социологов знание сильных и слабых сторон чат-ботов ИИ может помочь в их использовании в исторических исследованиях.
Для разработчиков ИИ эти результаты указывают на области, требующие улучшения, в частности, в плане устранения региональных предубеждений и повышения способности моделей обрабатывать сложные, детализированные исторические знания.
Её конек схемы в бизнесе, банковской и финансовой сфере.