Marcel Waldvogel on Nostr: Was lernen wir daraus: Gute Software durchläuft im Normalfall eine Unzahl an ...
Was lernen wir daraus:
Gute Software durchläuft im Normalfall eine Unzahl an rigorosen Tests, bevor sie auf uns User losgelassen wird. Und trotzdem schummeln sich Fehler durch diese Tests.
Bei #Chatbots wie #ChatGPT sind solche Tests kaum automatisierbar, da jedesmal etwas Anderes herauskommt. Und selbst wenn dasselbe Resultat ausgespuckt wird: Eine kleine Umformulierung der Frage kann zu einem überraschend anderen Ergebnis führen.
Diese Systeme sind kaum automatisiert testbar.
5/5
#LLM
Gute Software durchläuft im Normalfall eine Unzahl an rigorosen Tests, bevor sie auf uns User losgelassen wird. Und trotzdem schummeln sich Fehler durch diese Tests.
Bei #Chatbots wie #ChatGPT sind solche Tests kaum automatisierbar, da jedesmal etwas Anderes herauskommt. Und selbst wenn dasselbe Resultat ausgespuckt wird: Eine kleine Umformulierung der Frage kann zu einem überraschend anderen Ergebnis führen.
Diese Systeme sind kaum automatisiert testbar.
5/5
#LLM