Large Language Models (LLMs) – sinnloses ‚höher, schneller, weiter‘?

Die Architektur von semantic one ist auf Wortschätze zwischen fünfhundert und zehntausend Begriffen ausgelegt. So klein? Unmöglich! Steht es doch offenkundig im Widerspruch zu dem Streben großer Tech-Konzerne, sich darin zu überbieten, Sprachmodelle mit hunderten Milliarden Parametern zu entwickeln. Wie klein Sprachräume in der Praxis aber tatsächlich sind, das ist die erstaunlichste Erkenntnis aus zehn Jahren Entwicklungserfahrung im Bereich der Semantikerkennung. Wofür eignen sich die sogenante LLMs (Large Language Models), und wo liegen ihre Grenzen?

Was sind LLMs

Die Large Language Models können unglaubliche Größen von mehreren Dutzend Gigabyte erreichen. Der Einsatz von Sprachmodellen hat in den letzten Jahren zwar enorm zugenommen, in der letzten Zeit häufen sich jedoch auch kritische Stimmen. Denn nicht immer funktionieren ChatBots so, wie man es erwarten müsste. Ist das Konzept ‚LLM‘ an seinem Limit angekommen? Selbstverständlich gibt es große Erfolgsgeschichten, beispielsweise in der Fragebeantwortung, Dokumentenzusammenfassung, Texterstellung, Satzvervollständigung und Übersetzung von Texten in andere Sprachen. Google hat ein 540-Milliarden-Parameter-Modell mit der Bezeichnung PaLM vorgestellt, das nach eigenen Angabe bei allen Sprachaufgaben die beste Leistung erzielt. Aber ist größer automatisch besser? „Diese Arten von Sprachmodellen werden für die Mehrheit der Organisationen, ob im akademischen, öffentlichen oder privaten Sektor, unpraktisch bleiben“, postulierte Kyle Wiggers im April 2022. In einem Artikel auf thenextweb.com schreibt Tristan Green, LLMs seien so zuverlässig seien wie ein Zufallsgenerator und für Aufgaben, bei denen es auf Genauigkeit ankommt, generell nicht geeignet.

Der Trend heißt ‚kleiner aber feiner‘

Ein Beispiel für ein kleines, dafür aber feinabgestimmtes Modell, ist der Codex von OpenAI. Die Feinabstimmung hat seine Fähigkeit in der Erzeugung und Vervollständigung von Computercode dennoch wesentlich verbessert. Kleinere, dafür aber besser abgestimmte Modelle, bieten mehr Möglichkeiten, sich in den jeweiligen Kontext einzupassen. Auch die sogenannten ‚Edge-Modelle‘
gehören zu dieser Art von Sprachmodellen. Dabei handelt es sich quasi um Ausschnitte großer Modelle, die nicht zwangsläufig in der Cloud laufen müssen, sondern aufgrund ihrer kleineren Größe lokal installiert sein können. Das Unternehmen Nvidia präsentierte eine Demo eines Edge-Chatbot, der ein Gespräch mit Kunden in einem Fastfood-Restaurant führt. Edge-Modelle sind schnell, wenig anfällig für Hackerangriffe und dazu auch noch kostengünstig. Doch ihr eigentlicher Vorteil liegt darin, dass sie optimal auf den jeweiligen Anwendungsfall zugeschnitten werden können.

Sprachräume sind viel kleiner als man denkt

Albert Einstein war erstaunt darüber, dass seine Dissertation mit einem Sprachschatz von gerade einmal zwei- bis dreitausend Begriffen niedergeschrieben werden konnte. Noch viel kleiner sind Sprachmodelle bei semantic one, dafür aber optimal auf den Kontext zugeschnitten. Das erst ermöglicht, dass man mit ihnen zuverlässig auf strukturierten Daten arbeiten kann. Bei semantic one heißen sie deshalb nicht Sprachmodell, sondern Framing. Die Architektur von semantic one ist darauf ausgelegt, das Framing so individuell wie nur irgend möglich konfigurieren zu können. Weil das mit einem gewissen Aufwand verbunden ist, werden kleinere Sprachräume bevorzugt bedient. Doch die sind in den meisten praktischen Anwendungsfällen vollkommen ausreichend.

Deshalb funktionieren LLMs im Reporting nicht

Ein gutes Beispiel dafür ist das Reporting, denn hier kommt es wie in keinem anderen Bereich auf Genauigkeit an. LLMs, die in BI-Systeme integriert wurden, konnten die Erwartungen bislang nicht erfüllen. Was ein Anwender sehen will entscheidet sich im Detail der Formulierung, nicht anhand der Schlagwörter, die genannt werden. Identifiziert man das Wort ‚Umsatz‘, dann hat man nichts erreicht. Denn es geht immer um Umsatz. Entscheidend sind die semantischen Gliederungsmuster des jeweiligen Zusammenhangs, auf den sich ein Reportingwürfel bezieht. Sprachräume im Reporting sind tendenziell eher klein, dafür sind jedoch höchste Ansprüche an ihre Parametrisierung gefordert, damit sie im jeweiligen Kontext zuverlässig funktionieren. Semantic one hat dafür eine bislang einzigartige Softwarearchitektur entworfen, deren Fokus darauf liegt, Begriffswelten mit einfachen mitteln auf einen Kontext zuzuschneiden.

Fazit: LLMs haben in vielen Bereichen erstaunliche Ergebnisse erzielen können, doch sie sind in ihren Anwendungsmöglichkeiten überall dort begrenzt, wo es darauf ankommt, den Sprachraum individuell und mit hoher Granularität auf die semantischen Muster des Kontext zuzuschneiden.

Large Language Models (LLMs) – sinnloses ‚höher, schneller, weiter‘?

Insights – Wie digitale Assistenten Daten in Ergebnisse verwandeln

Wie relevant ist ChatGPT

Ist Sprache das bessere Nutzerinterface?

Automatisieren oder assistieren – Welcher Trend bestimmt das Future Work im Controlling

Digitaler Sprachassistent für Controlling & BI – Diese Kriterien sollten Sie beachten

Large Language Models (LLMs) – sinnloses ‚höher, schneller, weiter‘?

Ähnliche Beiträge

Insights – Wie digitale Assistenten Daten in Ergebnisse verwandeln

Wie relevant ist ChatGPT

Ist Sprache das bessere Nutzerinterface?

Automatisieren oder assistieren – Welcher Trend bestimmt das Future Work im Controlling

Digitaler Sprachassistent für Controlling & BI – Diese Kriterien sollten Sie beachten