Bewertung der Chatqualität mit Standard-NLP-Benchmarks
Bisher erstellen Sprachmodell-basierte Bewertungen von Chatbots nur einen Score über die Gesamtqualität, ohne beispielsweise den Zusammenhang des Dialogs zu beachten. Mit Modellen, die auf GLUE-Aufgaben trainiert sind, hat das ein Ende.