Ziel: Ziel der vorliegenden Studie war eine Untersuchung des klinischen Verständnisses und Denkvermögens der großen Sprachmodelle (Large Language Modells, LLM) ChatGPT, GPT-4 und New Bing („das neue Bing“) anhand einer Analyse ihrer Leistungen bei der zahnärztlichen Zulassungsprüfung (National Dental Licensing Examination, NDLE) in China.
Material und Methode: Aus den NDLE der Jahre 2020 bis 2022 wurden, thematisch gewichtet, Prüfungsfragen ausgewählt. Der LLM-Output wurden durch Verwendung einheitlicher Prompts konditioniert, um genauere Antworten zu erhalten. Die statistische Auswertung der Prüfungsleistungen der drei Modelle nach einzelnen Themengebieten sowie kumulativ (über alle Themen) erfolgte mit dem McNemar-Test.
Ergebnisse: Die LLM erreichten die folgenden prozentualen (absoluten)
Ergebnisse: ChatGPT 42,6 % (138/324), GPT-4 63,0 % (204/324) und New Bing 72,5 % (235/324). Die Unterschiede zwischen den Leistungen von New Bing sowie ChatGPT und GPT-4 waren signifikant: New Bing übertraf ChatGPT in allen und GPT-4 in den meisten Einzelthemen.
Schlussfolgerung: GPT-4 und New Bing zeigten vielversprechende Prüfungsleistungen in der chinesischen NDLE. Allerdings war ihre Kompetenz in bestimmen Themenbereichen wie Prothetik und Mund-Kiefer-Gesichtschirurgie verbesserungswürdig. Dieser Leistungsrückstand kann mit der geringen verfügbaren Menge zahnmedizinischer Trainingsdaten und der inhärenten Komplexität dieser Fächer erklärt werden.
Schlagwörter: künstliche Intelligenz, Big Data, evidenzbasierte Medizin, evidenzbasierte Zahnmedizin, zahnärztliche Ausbildung, Deep Learning, maschinelles Lernen