Künstliche Intelligenz

Neuer Benchmark zeigt, was die Sprachmodelle drauf haben

Quelle: Foto: https://nian.llmonpy.ai/
27.05.2024
Der neue Test "Needle in a Needlestack" fühlt Großen Sprachmodellen (Large Language Models) auf den Zahn. Vor allem OpenAIs GPT-4o glänzt darin.
Mit dem Benchmark "Needle in a Haystack" will man herausbekommen, wie gut Large Language Models (LLMs) wie die von OpenAI oder Google auf die Inhalte im Kontextfenster eingehen. Nachdem aber die LLMs immer besser wurden, reichte der Test bald nicht mehr aus, um Unterschiede zu zeigen. 
Ein neuer Test musste her, und das ist Needle in a Needlestack (NIAN). Dazu erzeugt der Test zuerst eine Liste von Limericks aus einer Datenbank von Limericks. Anschließend stellt er eine spezifische Frage zu einem Limerick. 
Die bisherigen Sprachmodelle wie GPT-4-turbo kommen bei diesem Test nicht gut weg. Anders sieht das beim neuen Modell von OpenAI GPT-4o aus. Das glänzt in dem Test. Unklar ist, wie OpenAI das erreicht hat. 
Weitere Informationen

Autor(in)

Das könnte sie auch interessieren
Neuer Katalysator
Wasserstoff und Dünger parallel hergestellt
Saubere Luftfahrt
Lufttaxi schafft mit Wasserstoff 841 Kilometer
Report
Krypto-Geldwäsche im Fokus - Chainalysis enthüllt brisante Trends
Cloudflight-Umfrage
KI im Code - hilft sie oder hindert sie?
Mehr News?
Besuchen Sie unsere Seite ...
https://www.com-magazin.de
nach oben