LLM-Strategien Teil 1: Möglichkeiten zur Implementierung von Sprachmodellen in Ihrer Organisation

David Berscheid

3. April 2024

Große Sprachmodelle (eng.: Large Language Models, kurz: LLMs) sind aktuell ein viel diskutiertes Thema in Strategieabteilungen uns bekannter Organisationen. Dieser Artikel ist der erste von zwei Teilen, in denen einige Anhaltspunkte zur Identifizierung sinnvoller LLM-Strategien gegeben und Lösungsansätze zur Bewältigung damit verbundener Komplexitäten vorgestellt werden sollen.

Weitere Inhalte über LLMs finden Sie in unserer LLM-Übersicht.

Überblick über LLM-Strategien

Der Einfachheit halber werden wir die Auswahl möglicher LLM-Strategien einer Organisation auf vier Hauptstrategien herunterbrechen:

Strategie A: "Proprietäre, vortrainierte LLM-APIs - keine Individualisierung"
Strategie B: "Proprietäre, vortrainierte LLM-APIs - mit Individualisierung"
Strategie C: "Open Source, vortrainiertes LLM - mit Individualisierung"
Strategie D: "LLM von Grund auf - vollständige Eigenentwicklung"

$$$$

Beachten Sie, dass wir hier nicht auf UI-basierte Tools wie ChatGPT eingehen, da unser Fokus in dieser Analyse eine Ebene unter der UI-Ebene liegt.

Jede dieser Strategien zeichnet sich durch die folgenden Aspekte aus:

Lizenzierung und Zugänglichkeit: Proprietär vs. Open Source

Proprietäre LLMs sind Modelle mit nicht zugänglichem Quellcode, bei denen die Nutzer über eine API-Schnittstelle Nutzungszugang erhalten. Sämtliche technische Spezifikationen hinter der API bleiben für den Nutzenden dabei außer Kontrolle.

Open-Source-Modelle können in der Regel von öffentlichen Quellen heruntergeladen werden und verfügen über eine Lizenz, die es Organisationen erlaubt, sie kommerziell zu nutzen (z.B. MIT-Lizenz). Modellebenen und Modellgewichte sind dabei in der Regel frei zugänglich.

Training: vortrainierte LLMs vs. Training von Grund auf

LLMs erhalten ihre beeindruckenden Fähigkeiten durch eine immens hohe Anzahl von Trainingsiterationen, bei denen Modellen beigebracht wird, eine Sequenz (z.B. eine Sequenz an Wörtern) basierend auf der vergangenen Sequenz vorherzusagen (sog. Tokens), wobei Terabytes an Daten (Webdaten, Dokumente, Bücher usw.) für dieses Training verwendet werden.

Vortrainierte LLMs wurden bereits für die Vorhersage von Milliarden von Tokens verwendet und haben ihre Modellgewichte entsprechend optimiert, während Sie bei einem LLM, das Sie von Grund auf trainieren würden, mit zufällig initialisierten Modellgewichten beginnen würden. Die letztere Option ist - wie Sie sehen werden - sehr selten und für Ihre Organisation höchstwahrscheinlich nicht relevant.

Individualisierung: ja vs. nein

Ein Hauptwerkzeug für die Anpassung eines LLMs ist das sogenannte Finetuning (zu deutsch: Feinabstimmung).

Finetuning ermöglicht die Anpassung allgemeiner LLMs an ein spezifisches Wissen, relevanteres Vokabular oder individuelle Fähigkeiten. Organisationen in bestimmten Branchen werden von dieser Funktion Gebrauch machen wollen.

Ein zweites Element der Anpassung, die sogenannte "Retrieval augmented Generation" - kurz "RAG" - kann ebenso für die Generierung individueller Ergebnisse verwendet werden, soll aber in diesem Artikel nicht behandelt werden. Lesen Sie stattdessen, wie Sie das Wissen Ihres LLMs mit RAG erweitern können.

$$$$

Die hier vorgestellten Strategien setzen sich aus der Kombinatorik dieser Charakteristiken zusammen.

Grafik 1 stellt die Strategien in einer vereinfachten 2x2-Matrix dar, wobei "Control" auf der x-Achse den Grad der Kontrolle bedeutet, den eine Organisation über die Daten und das Modell in Bezug auf die Beeinflussung seiner Ergebnisse hat.

"Complexity" auf der y-Achse beschreibt die technischen Schwierigkeiten bei der Einrichtung, Wartung und Nutzung der jeweiligen Modelle, als auch personelle sowie finanzielle Komplexitäten.

Grafik 1: Vereinfachte LLM-Strategie-Matrix (x: Daten- und Modellkontrolle; y: technische, finanzielle u. personelle Komplexität)

Diese vereinfachte Grafik beschreibt, wie die Aspekte der Kontrolle und der Komplexität in hohem Maße positiv miteinander korrelieren.

Unternehmen müssen also entscheiden, welches Maß an (Daten- und Modell-) Kontrolle sie benötigen, während sie gleichzeitig Lösungen finden, entsprechende (technische, finanzielle, arbeitsbezogene) Komplexitäten großer Sprachmodelle zu bewältigen.

Randstrategien

Da dieser Artikel Strategien in einem organisatorischen Kontext untersucht, wird die optimale Strategiewahl für die meisten Organisationen von ausreichender Größe irgendwo im Zentrum liegen.

Um mehr Zeit auf diesen ausgewogenen, im Zentrum liegenden, Strategien (B und C) verwenden zu können, werden wir die beiden Randstrategien A und D nur kurz vorstellen.

$$$$

Strategie A: "Proprietäre, vortrainierte LLM-APIs - keine Individualisierung"

Beispiele: GPT3.5 / 4 API | Gemini API - ohne Verwendung von Finetuning

Unternehmen, die sich für die Nutzung API-basierter LLM-Dienste entscheiden und sich damit zufrieden geben, keine möglichen Anpassungsfunktionen zu nutzen, erhalten mit dieser Strategie schnelle und solide Ergebnisse für Anfragen zu allgemeinen Themen.

Durch ein einfaches "Anzapfen" der jeweiligen API können Nutzer Lösungen innerhalb von Tagen realisieren. Für einige Anwendungsfälle, die Ähnlichkeit mit öffentlich verfügbaren Webdaten aufweisen (auf denen diese Modelle trainiert wurden), kann diese Strategie vollkommen ausreichen.

Es sei angemerkt, dass die genannten Services durchaus Möglichkeiten der Individualisierung bieten, die jedoch in diesem Szenario mit möglichst minimal gewählter Komplexität jedoch nicht in Anspruch genommen werden.

Außerdem sei ergänzt - um technisch genau zu sein - dass Modelle, von denen hier die Rede ist, nicht auf eine Organisation abgestimmt werden und daher die Formulierung "keine Individualisierung" verwendet wird, sie dennoch auf eine Chat-Unterhaltung hin optimiert wurden (sog. "Chat-Finetuning"). Es fand also in jedem Falle Finetuning statt, nicht jedoch die hier relevant Art.

$$$$

Strategie D: "LLM von Grund auf - vollständige Eigenentwicklung"

Example: BloombergGPT

Diese Strategie sieht vor, ein LLM von Grund auf zu erstellen und zu trainieren. Man startet also mit einer üblichen Transformer-Architektur, zufälligen Modellgewichten und beginnt Sequenzen der eigenen Daten vorherzusagen.

Unternehmen wie Bloomberg, die über eine große Menge wertvoller Daten verfügen, möglicherweise sogar eine Art "Datenmonopol", können diese Strategie in Betracht ziehen. Im Fall von Bloomberg sammelt das Unternehmen seit den 1980er Jahren Finanzdaten und kontrolliert ca. 1/3 des Finanzdatenmarktes (Quelle).

Kombiniert man diese Art von proprietärem Datenzugang mit dem Zugang zu exzellenten Wissenschaftlern aus dem Bereich Machine Learning und dem Zugang zu großen Mengen an Rechenressourcen, kann es eine attraktive Investition sein, diese Strategie zu verfolgen.

Zentrale Strategien: kundenspezifische Individualisierung von LLMs

Da die überwiegende Mehrheit der Leser und deren Unternehmen eine ausgewogene LLM-Strategie anstreben werden, werden wir uns nun die Strategien B und C genauer ansehen. Beide Strategien sehen es vor individualisierte Ergebnisse zu produzieren, um Organisationen größtmöglichen Nutzen zu bringen. Lediglich die Ausgestaltung und Wahl der Modelle unterscheidet sich.

Strategie B: "Proprietäre, vortrainierte LLM-APIs - mit Individualisierung"

Beispiele: finetuned GPT3.5 / 4 API | finetuned Gemini API

Die Verwendung eines proprietären LLMs wie einer individualisierten Version von GPT 3.5 / 4 beinhaltet hauptsächlich die Interaktion mit einer API. In diesem Szenario ist der LLM-Anbieter für die Anpassung des Modells für die Organisation verantwortlich, so dass sie maßgeschneiderte Modellantworten und -fähigkeiten für bestimmte Domänen oder Anwendungen erhalten kann.

Das Finetuning erfolgt durch Training des Modells auf einem vom Benutzer bereitgestellten Datensatz, so dass Ergebnisse an bestimmte Sprachstile, Terminologien oder Inhalte anpasst werden können.

Das Unternehmen hat keinen direkten Zugriff auf die Architektur des Modells, die Gewichte oder das Verfahren des Finetunings, da diese Aspekte geschützt sind. Dieser Black-Box-Ansatz bedeutet auch, dass das Trainingsverfahren nicht bekannt ist und entsprechend nicht verändert werden kann.

Im folgenden listen wir Argumente auf, die für oder gegen diese Strategie sprechen.

$$$$

Pro-Argumente:

Benutzerfreundlichkeit: Proprietäre LLMs sind in der Regel benutzerfreundlich und erfordern nur minimale technische Kenntnisse bzgl. Integration und Nutzung. Der Anbieter kümmert sich um alle Aspekte der Ausführung und Aktualisierung des Modells und stellt sicher, dass es mit nur minimalem Aufwand seitens des Nutzers auf dem neuesten Stand der Technik bleibt (d. h. er initiiert ein Neutraining des Modells durch Bereitstellung neuer Daten).
Konsistente Leistung und Zuverlässigkeit: Da der Anbieter das Modell zentral verwaltet, können die Nutzer eine gleichbleibende Leistung und Zuverlässigkeit erwarten. Alle Aktualisierungen oder Verbesserungen werden automatisch integriert, so dass ein stabiler und sich ständig weiterentwickelnder Dienst zu erwarten ist.
Skalierbarkeit und Unterstützung: Diese Modelle sind für die Bewältigung großer Mengen von Anfragen ausgelegt und bieten Skalierbarkeit für wachsende Geschäftsanforderungen. Die Nutzer profitieren außerdem von professionellem Support und Servicegarantien.

$$$$

Gegenargumente:

Datenschutz: Abhängig von den Datenschutz- und Geheimhaltungsanforderungen verschiedener Abteilungen ist es möglich, dass die Verwendung proprietärer LLMs in Ordnung ist. Einige Unternehmen oder Abteilungen (z.B. eine pharmazeutische Forschungs- und Entwicklungsabteilung) werden sich jedoch nicht in der Lage sehen, sensible Daten mit einem LLM-Anbieter zu teilen, bzw. in ein ausländisches Rechenzentrum zu schicken.
Begrenzte Transparenz und Kontrolle: Nutzer proprietärer Modelle haben nur ein begrenztes Verständnis und eine begrenzte Kontrolle über die Funktionsweise des Modells, was ein Nachteil für diejenigen sein kann, die eine tiefgreifende Anpassung benötigen oder besondere ethische Erwägungen haben.
Abhängigkeit vom Anbieter: Nutzer sind in Bezug auf alle Aspekte des Dienstes, einschließlich der Preisgestaltung, der Verfügbarkeit und etwaiger Änderungen der Richtlinien oder Dienstbedingungen, vom Anbieter abhängig.
Kosten: Closed-Source-Lösungen können teurer sein als Open-Source-Alternativen, insbesondere bei umfangreichen oder häufig genutzten Anwendungen, da die Nutzer in der Regel nach Verbrauch zahlen.

$$$$

Strategie C: " Open Source, vortrainiertes LLM - mit Individualisierung"

Beispiel: Llama2, gehostet auf eigenen Servern, mit Individualisierung

Strategie C beinhaltet die Verwendung eines quelloffenen, vortrainierten LLMs wie Llama2, das die Nutzer selbst hosten und verwalten können. Open-Source-LLMs bieten Transparenz und Flexibilität, da die Nutzer Zugriff auf die Architektur des Modells und die Gewichte haben.

Diese Zugriffsebene ermöglicht ein tiefes Verständnis der inneren Funktionsweise des Modells und die Möglichkeit, das Modell nach Bedarf zu ändern oder zu erweitern.

Bei dieser Strategie wird das Modell zwar vortrainiert geliefert, aber die Benutzer können es weiter anpassen, indem sie es auf ihren eigenen Datensätzen trainieren. Durch dieses zusätzliche Training können die Ergebnisse des Modells auf bestimmte Bereiche, Stile oder Formate zugeschnitten werden.

Open-Source-Modelle wie Llama2 sind besonders für diejenigen interessant, die über das technische Fachwissen und die Ressourcen zur Verwaltung und Wartung ihrer Modelle verfügen und gleichzeitig von der Flexibilität der Anpassung profitieren möchten.

Im folgenden listen wir Argumente auf, die für oder gegen diese Strategie sprechen.

$$$$

Pro-Argumente:

Transparenz und Kontrolle: Nutzer haben vollständigen Zugriff auf die Architektur des Modells und auf den Prozess des Finetunings, was ein besseres Verständnis und eine bessere Kontrolle über die Funktionen und Ergebnisse des Modells ermöglicht.
Anpassungsfähigkeit: Das Modell bietet ein hohes Maß an Flexibilität bei der Anpassung. Die Benutzer können es auf bestimmte Datensätze "umlernen" oder optimieren, um es an ihre individuellen Anforderungen anzupassen.
Kosteneffizienz: Open-Source-Modelle können kostengünstiger sein, insbesondere für Organisationen, die in der Lage sind, die Modelle selbst zu hosten und zu verwalten. Es fallen keine Nutzungsgebühren an - lediglich Kosten der Rechenleistung.
Unterstützung durch die Gemeinschaft: Open-Source-Projekte verfügen oft über aktive Gemeinschaften, die Unterstützung, Tools und gemeinsames Wissen bereitstellen, das bei der Optimierung und Pflege des Modells wertvoll sein kann. Während proprietäre Modelle derzeit einen Leistungsvorsprung haben, holen Open-Source-Modelle schnell auf.

Gegenargumente:

Technisches Fachwissen erforderlich: Die Implementierung und das Hosting eines Open-Source-LLMs erfordert erhebliches technisches Fachwissen und Ressourcen, was möglicherweise nicht für alle Organisationen intern verfügbar ist.
Herausforderungen in Bezug auf Wartung und Skalierbarkeit: Die Benutzer sind für die Wartung des Modells verantwortlich, einschließlich Aktualisierungen, Skalierung und Fehlerbehebung, was ressourcenintensiv ist.
Variable Leistung: Da die Benutzer das Modell individuell anpassen, kann seine Leistung je nach Qualität und Relevanz der Trainingsdaten und den Fähigkeiten der IT-/ Data-Science-Abteilung stark schwanken.
Verantwortung für Sicherheit und Compliance: Die Benutzer müssen sicherstellen, dass ihre Implementierung den einschlägigen Datenschutz- und Sicherheitsvorschriften entspricht, was eine komplexe und laufende Aufgabe sein kann.

Einschub: Externe Implementierungshilfe

Wenn sich eine Organisation bei der Umsetzung einer LLM-Strategie selbst nicht wohl fühlt, ist es sinnvoll, sich von externen Anbietern unterstützen zu lassen. Die Suche nach einem geeigneten Anbieter ist zwar einen eigenen Artikel wert, aber hier sind bereits zwei kurze Beispiele:

Wir bei dida sind ein hochspezialisierter Anbieter, der sich ganz auf maßgeschneiderte Machine-Learning-Lösungen für mittlere bis große Unternehmen konzentriert - daher würden wir uns als eine gute Wahl für Organisationen betrachten, die Strategie C ("Open Source, vortrainiertes LLM - mit Individualisierung") verfolgen wollen.

Wenn Sie darüber nachdenken, Strategie A oder B zu verfolgen ("proprietäre, vortrainierte LLM-APIs - mit oder ohne Individualisierung"), dann würden wir auf einen Anbieter wie Startup Creator verweisen.

Die KI-Agentur Startup Creator ist ein hervorragendes Beispiel für die Integration von proprietären-LLMs in den Geschäftsbetrieb. Mit einem eher allgemeinen Software-Fokus, aber auch mit maßgeschneiderten KI-Lösungen für Startups und KMUs, haben sie gezeigt, wie LLMs Kommunikationsprozesse verbessern, Kundeninteraktionen verbessern und datengestützte Erkenntnisse für solche Kunden liefern können. Ihre Projekte veranschaulichen die praktische Anwendung und die Vorteile von KI in verschiedenen Branchen und machen sie zu einer guten Wahl für LLM-Implementierungen für Startups und KMUs.

Fazit

In diesem ersten Teil unserer zweiteiligen Serie über LLM-Strategien haben wir ein vereinfachtes Konzept für 4 mögliche LLM-Strategien vorgestellt, die eine Organisation verfolgen kann.

In unserer Präsentation haben wir uns auf zwei Hauptstrategien konzentriert, von denen wir glauben, dass sie für die Mehrheit der Leser die einzig relevanten sind: die individuelle Anpassung eines proprietären LLMs, wobei Transparenz und Flexibilität gegen Komfort eingetauscht werden (Strategie B), und das Finetuning plus Hosten eines Open-Source-LLM selbst, wobei potenziell bessere individuelle Performance und Kosteneffizienz zu erwarten ist, aber auch ein höheres Maß an technischer Komplexität bewältigen muss (Strategie C).

Nachdem wir nun die verschiedenen Strategien vorgestellt haben, werden wir im zweiten Teil einen Weg aufzeigen, wie Sie entscheiden können, welche Strategie für Ihre Organisation die richtige ist.