Historisches Wissen von KI-Chatbots noch mangelhaft
Überrascht über das schlechte Abschneiden bei den Fragen auf akademischem Niveau zeigte sich Peter Turchin, der die Forschungsgruppe Social Complexity and Collapse am CSH leitet. Er sammelt seit vielen Jahren zusammen mit Kolleginnen und Kollegen Wissen über die Menschheitsgeschichte in der "Seshat Global History Databank". Diese Datenbank diente auch als Grundlage, um KI-gestützte Chatbots, die auf sogenannten Großen Sprachmodellen (Large Language Model, LLM) basieren, auf ihr Verständnis von historischem Wissen zu testen.
Dabei mussten sieben Modelle aus vier Antwortmöglichkeiten die richtige auswählen. Die Zufallsrate von 25 Prozent wurde von allen überboten, wenn auch nicht mit großer Deutlichkeit. Am besten schnitt GPT-4 Turbo vom ChatGPT-Entwickler OpenAI mit einer Trefferquote von 46 Prozent ab, das Schlusslicht bildete Llama-3.1-8B vom Facebook-Konzern Meta mit 33,6 Prozent. Zu berücksichtigen ist, dass kein Allgemeinwissen abgefragt wurde, sondern die Fragen auf Expertenniveau - entsprechend der Datenbank, die Wissen über 600 Gesellschaften weltweit umfasst - lagen.
Getestet wurde zudem nicht nur, ob die Modelle Fakten korrekt identifizieren, sondern auch, ob sie diese aus indirekten Beweisen ableiten können, erklärte Erstautor Jakob Hauser vom CSH in einer Aussendung. Wobei sich laut der Studie, die kürzlich auf der NeurIPS-Konferenz in Vancouver (Kanada), einem prominenten Treffpunkt der KI-Community, präsentiert wurde, bereichspezifisch große Unterschiede gezeigt hätten.
Abstriche gab es etwa bei der Einschätzung der Charakteristika vergangener Gesellschaften außerhalb Nordamerikas und Westeuropas. Erhebliche Lücken im historischen Verständnis zeigten sich auch bei jüngeren Epochen bis zur Gegenwart, während Fragen zur Frühgeschichte, insbesondere aus der Zeit zwischen 8.000 v. Chr. und 3.000 v. Chr., sehr treffsicher beantwortet wurden. Hinsichtlich der Themenkategorie schwächelten die Modelle bei Diskriminierung und sozialer Mobilität.
Für die Vermittlung grundlegender Fakten würden sich die Modelle hervorragend eignen, "aber wenn es um eine differenziertere historische Untersuchung geht, sind sie der Aufgabe noch nicht gewachsen", wird Ko-Autorin Maria del Rio-Chanona, externes Fakultätsmitglied des CSH und Assistenzprofessorin am University College London, zitiert. Künftig sollen in den Leistungsvergleich mehr Daten aus unterrepräsentierten Regionen einbezogen und mehr Modelle getestet werden.
Zusammenfassung
- Ein internationales Forscherteam testete KI-Chatbots auf ihr historisches Wissen. GPT-4 Turbo erzielte die höchste Trefferquote von 46 Prozent, während Llama-3.1-8B am schlechtesten abschnitt.
- Die Fragen basierten auf der 'Seshat Global History Databank' und umfassten Wissen über 600 Gesellschaften. Sie waren auf Expertenniveau und nicht auf Allgemeinwissen ausgelegt.
- Die Modelle zeigten Schwächen bei der Einschätzung von Gesellschaften außerhalb Nordamerikas und Westeuropas sowie bei jüngeren Epochen. Künftig sollen mehr Daten aus unterrepräsentierten Regionen einbezogen werden.