banner
Heim / Blog / ChatGPT kann die US-amerikanische medizinische Zulassungsprüfung (fast) bestehen
Blog

ChatGPT kann die US-amerikanische medizinische Zulassungsprüfung (fast) bestehen

May 13, 2023May 13, 2023

ChatGPT kann bei oder um die etwa 60-prozentige Bestehensschwelle für das United States Medical Licensing Exam (USMLE) punkten, mit Antworten, die kohärent und intern sinnvoll sind und häufige Erkenntnisse enthalten.laut einer Studieveröffentlicht am 9. Februar 2023 in der Open-Access-Zeitschrift PLOS Digital Health von Tiffany Kung, Victor Tseng und Kollegen von AnsibleHealth.

ChatGPT ist ein neues System der künstlichen Intelligenz (KI), bekannt als Large Language Model (LLM), das darauf ausgelegt ist, menschenähnliches Schreiben zu erzeugen, indem es bevorstehende Wortsequenzen vorhersagt. Im Gegensatz zu den meisten Chatbots kann ChatGPT das Internet nicht durchsuchen. Stattdessen generiert es Text mithilfe von Wortbeziehungen, die durch seine internen Prozesse vorhergesagt werden.

Kung und Kollegen testeten die Leistung von ChatGPT beim USMLE, einer hochgradig standardisierten und regulierten Reihe von drei Prüfungen (Schritte 1, 2CK und 3), die für die medizinische Zulassung in den Vereinigten Staaten erforderlich sind. Der USMLE wird von Medizinstudenten und angehenden Ärzten absolviert und bewertet Wissen aus den meisten medizinischen Disziplinen, von der Biochemie über diagnostisches Denken bis hin zur Bioethik.

Nach einem Screening zur Entfernung bildbasierter Fragen testeten die Autoren die Software an 350 der 376 öffentlichen Fragen, die ab der USMLE-Version vom Juni 2022 verfügbar waren.

Nachdem unbestimmte Antworten entfernt wurden, erzielte ChatGPT in den drei USMLE-Prüfungen eine Punktzahl zwischen 52,4 und 75,0 Prozent. Die Bestehensschwelle liegt jedes Jahr bei etwa 60 Prozent. ChatGPT zeigte außerdem eine Übereinstimmung von 94,6 Prozent bei allen Antworten und lieferte bei 88,9 Prozent der Antworten mindestens eine signifikante Erkenntnis (etwas, das neu, nicht offensichtlich und klinisch gültig war). Insbesondere übertraf ChatGPT die Leistung von PubMedGPT, einem Gegenmodell, das ausschließlich auf biomedizinischer Fachliteratur trainiert wurde und bei einem älteren Datensatz mit Fragen im USMLE-Stil 50,8 Prozent erreichte.

Während die relativ geringe Eingabegröße die Tiefe und den Umfang der Analysen einschränkte, stellen die Autoren fest, dass ihre Ergebnisse einen Einblick in das Potenzial von ChatGPT geben, die medizinische Ausbildung und letztendlich die klinische Praxis zu verbessern. Sie fügen beispielsweise hinzu, dass Kliniker bei AnsibleHealth ChatGPT bereits verwenden, um Fachjargon-lastige Berichte neu zu verfassen, damit sie für den Patienten leichter verständlich sind.

„Das Erreichen der bestandenen Punktzahl für diese notorisch schwierige Expertenprüfung und das ohne jegliche menschliche Verstärkung, markiert einen bemerkenswerten Meilenstein in der klinischen KI-Reifung“, sagen die Autoren.

Die Autorin Dr. Tiffany Kung fügte hinzu, dass die Rolle von ChatGPT in dieser Forschung über die Rolle des Studiensubjekts hinausging: „ChatGPT hat wesentlich zum Verfassen unseres Manuskripts beigetragen … Wir haben mit ChatGPT ähnlich wie ein Kollege interagiert und es gebeten, zu synthetisieren, zu vereinfachen, und Kontrapunkte zu laufenden Entwürfen bieten ... Alle Co-Autoren schätzten den Beitrag von ChatGPT.“

- Diese Pressemitteilung wurde von PLOS bereitgestellt

laut einer Studie