Google: "Jesteśmy bezbronni, podobnie jak OpenAI"

Wyciekł wewnętrzny dokument Google’a, w którym twierdzi się, że Open Source AI będą skutecznie konkurować z Google’em i OpenAI

Poniższy tekst to niedawno wyciekły dokument, którym podzieliła się anonimowa osoba na publicznym serwerze Discord, która wyraziła zgodę na jego publikację. Według wielu źródeł dokument rzeczywiście jest autentyczny.

„Jesteśmy bezbronni, podobnie jak OpenAI”

Często zaglądamy OpenAI przez ramię, żeby zobaczyć co oni tam robią. Kto jako pierwszy przekroczy kolejny kamień milowy? Jaki będzie następny ruch konkurenta?

Ale niewygodna prawda jest taka, że nie jesteśmy w stanie wygrać tego wyścigu zbrojeń, podobnie jak i OpenAI. Podczas gdy my się kłócimy, trzecia frakcja po cichu zjada nasz obiad.

Mówię oczywiście o modelach open source AI. Mówiąc wprost, oni nas wyprzedzają. Rzeczy, które uważamy za „główne nierozwiązane problemy”, tam są już rozwiązane i trafiają do rąk użytkowników. Wymieńmy tylko kilka z nich:

LLM na telefonie: Ludzie uruchamiają modele LLM na Pixelu 6 z prędkością 5 tokenów/sek.
Skalowalna osobista AI: Możesz dopracować spersonalizowaną AI na swoim laptopie w jeden wieczór.
Odpowiedzialne udostępnianie: Ten problem nie jest „rozwiązany”, ale „usunięty”. Istnieją całe strony internetowe pełne modeli tworzenia grafik bez żadnych ograniczeń, a i podobne modele tworzenia tekstu nie pozostają daleko w tyle.
Multimodalność: Obecny multimodalny ScienceQA SOTA został wytrenowany w godzinę.

Chociaż nasze modele nadal mają niewielką przewagę pod względem jakości, różnica ta zmniejsza się zadziwiająco szybko. Modele open-source AI są szybsze, bardziej konfigurowalne, bardziej indywidualne i o wiele bardziej wydajne. Przy 100$ i 13 mld parametrów robią rzeczy, z którymi my walczymy przy 10M$ i 540 mld parametrów. I oni robią to w ciągu tygodni, a nie miesięcy. To ma dla nas ogromne znaczenie:

Nie mamy żadnej tajemnej technologii. Naszą najlepszą nadzieją jest uczenie się i korzystanie z tego, co robią inni poza Google.
Ludzie nie będą płacić za zamknięty model AI, kiedy darmowe, nieograniczone alternatywy oferują porównywalną jakość. Powinniśmy zastanowić się, gdzie naprawdę jest nasza wartość dodana.
Budowa ogromnych modeli LLM spowalnia nas. W dłuższej perspektywie najlepsze modele to te, które mogą być szybko ulepszane. Teraz, kiedy wiemy, co jest możliwe w zakresie parametrów <20 mld, powinniśmy uczynić z małych wariantów modeli AI.

Es wurde kein Alt-Text für dieses Bild angegeben.

Co się wydarzyło?

Na początku marca społeczność open source otrzymała w swoje ręce pierwszy naprawdę sprawny model AI, ponieważ LLaMA firmy Meta został ujawniony publicznie. Nie zawierał on żadnych instrukcji, nie był dostrojony do konwersacji ani nie posiadał RLHF (Reinforcement Learning from Human Feedback,). Mimo to społeczność natychmiast zrozumiała znaczenie tego, co otrzymała.

Nastąpił ogromny wysyp innowacji, a między ważnymi wydarzeniami mijały zaledwie dni . JJuż pojawiają się warianty z dostrajaniem instrukcji, kwantyzacją, poprawą jakości, ocenami ludzi, multimodalnością, RLHF itd. itp.

Co najważniejsze, rozwiązano problem skalowania w takim stopniu, że każdy może przy nich majsterkować. Wiele nowych pomysłów pochodzi od zwykłych ludzi. Bariera wejścia dla szkoleń i eksperymentów spadła z poziomu dużej organizacji badawczej do jednej osoby, wieczoru i mocnego laptopa.

Dlaczego można było się tego spodziewać?

Pod wieloma względami nie powinno to być dla nikogo zaskoczeniem. Obecny renesans open source LLMs następuje tuż po wybuchu modeli open source w dziedzinie generowania obrazów. Podobieństwa nie umknęły uwadze społeczności.

W obu przypadkach tanie zaangażowanie społeczności było możliwe dzięki znacznie tańszemu mechanizmowi dostrajania, zwanemu low rank adaptation (LoRA), połączonemu ze znaczącym przełomem w skali (latent diffusion w przypadku syntezy obrazów, Chinchilla w przypadku LLM). W obu przypadkach dostęp do modelu o wystarczającej jakości zapoczątkował lawinę pomysłów i iteracji ze strony osób i instytucji z całego świata. W obu przypadkach szybko wyprzedziły one dużych graczy.

Ten wkład był kluczowy w dziedzinie generowania obrazów i skierował Stable Diffusion na inną drogę niż Dall-E. Otwarty model doprowadził do integracji produktów, rynków, interfejsów użytkownika i innowacji, które nie miały miejsca w przypadku Dall-E.

Efekt był namacalny: szybka dominacja pod względem wpływu na kulturę w porównaniu z rozwiązaniem OpenAI, które stawało się coraz mniej istotne. Nie wiadomo, czy to samo stanie się w przypadku LLM, ale ogólne elementy strukturalne są takie same.

Czego nam zabrakło?

Innowacje, które przyczyniły się do ostatnich sukcesów modeli open source AI, bezpośrednio rozwiązują problemy, z którymi wciąż się zmagamy. Zwrócenie większej uwagi na ich pracę może pomóc nam uniknąć ponownego wymyślania koła.

LoRA to niezwykle potężna technika, na którą powinniśmy zwrócić większą uwagę

LoRA działa poprzez przedstawianie aktualizacji modelu jako faktoryzacji niskiego rzędu, co zmniejsza rozmiar macierzy aktualizacji nawet do kilku tysięcy razy. Pozwala to na dostrojenie modelu przy ułamku kosztów i czasu. Możliwość spersonalizowania modelu językowego w ciągu kilku godzin na sprzęcie konsumenckim to wielka sprawa, zwłaszcza w przypadku dążenia do wykorzystania nowej i różnorodnej wiedzy w czasie zbliżonym do rzeczywistego. Fakt, że taka technologia istnieje, nie jest w Google w pełni wykorzystywany, mimo że ma ona bezpośredni wpływ na niektóre z naszych najbardziej ambitnych projektów.

Przekwalifikowanie modeli LLM od podstaw jest bardzo trudne

Część tego, co sprawia, że LoRA jest tak skuteczna, to fakt, że – podobnie jak inne formy dostrajania – można ją łączyć. Usprawnienia takie, jak dostrajanie za pomocą instrukcji, mogą być stosowane, a następnie wykorzystywane, gdy inni uczestnicy projektu dodadzą dialog, rozumowanie lub używanie narzędzi. Choć poszczególne ulepszenia mają niską rangę, ich suma nie musi być taka sama, co pozwala na gromadzenie pełnowartościowych aktualizacji modelu w czasie.

Oznacza to, że gdy dostępne są nowe, lepsze zbiory danych i zadania, model można tanio aktualizować, bez konieczności ponoszenia kosztów pełnego wdrożenia.

W przeciwieństwie do tego, trenowanie olbrzymich modeli od zera nie tylko pozbawia je wstępnego treningu, ale także wszelkich iteracyjnych ulepszeń, które zostały wprowadzone. W świecie open source nie trwa długo, zanim te ulepszenia staną się dominujące.

Powinniśmy się zastanowić, czy każda nowa aplikacja lub pomysł naprawdę wymaga zupełnie nowego modelu. Jeśli rzeczywiście mamy do czynienia z poważnymi ulepszeniami architektury, które uniemożliwiają bezpośrednie ponowne użycie wag modeli, powinniśmy zainwestować w bardziej agresywne formy dystrybucji, które pozwolą nam zachować jak najwięcej możliwości poprzedniej generacji.

Duże modele nie są bardziej wydajne w dłuższej perspektywie, jeśli możemy szybciej iterować na małych modelach.

Aktualizacja LoRA jest bardzo tania w produkcji (~100$) dla najbardziej popularnych rozmiarów modeli. Oznacza to, że prawie każdy, kto ma pomysł, może ją stworzyć i rozpowszechnić. Czas szkolenia modelu poniżej jednego dnia jest normą. W takim tempie nie potrzeba wiele czasu, aby efekt kumulacyjny wszystkich tych dostrojeń zniwelował niekorzystne warunki początkowe związane z wielkością modelu. W istocie, jeśli chodzi o godziny pracy inżynierów, tempo doskonalenia tych modeli znacznie przekracza to, co możemy zrobić z naszymi największymi wariantami, a najlepsze z nich są już w dużej mierze nie do odróżnienia od ChatGPT. Skupianie się na utrzymywaniu największych modeli na świecie stawia nas w niekorzystnej sytuacji.

Jakość danych skaluje się lepiej niż ich wielkość

W wielu z tych projektów oszczędza się czas, trenując na małych, dobrze przygotowanych zbiorach danych. Sugeruje to, że istnieje pewna elastyczność w prawach skalowania danych. Istnienie takich zbiorów danych wynika z toku rozumowania „Data Doesn’t Do What You Think” i szybko stają się one standardowym sposobem szkolenia poza Google. Te zbiory danych są tworzone przy użyciu metod syntetycznych (np. filtrowanie najlepszych odpowiedzi z istniejącego modelu) i pozyskiwania danych z innych projektów, z których żadna nie jest dominująca w Google. Na szczęście te wysokiej jakości zbiory danych są dostępne na zasadach open source, więc można z nich korzystać bezpłatnie.

Bezpośrednia rywalizacja z Open Source to przegrana sprawa

Ten ostatni proces ma bezpośrednie, natychmiastowe implikacje dla naszej strategii biznesowej. Kto płaciłby za produkt Google’a z ograniczeniami użytkowania, jeśli istnieje darmowa, wysokiej jakości alternatywa bez tych ograniczeń?

I nie powinniśmy oczekiwać, że będziemy w stanie nadrobić zaległości. Współczesny internet nie bez powodu działa na zasadach open source. Open source ma pewne znaczące zalety, których nie możemy powielić.

To my potrzebujemy ich bardziej niż oni nas

Utrzymanie naszej technologii w tajemnicy zawsze było niepewne. Naukowcy Google’a regularnie odchodzą do innych firm, więc możemy założyć, że wiedzą wszystko, co my wiemy, i będą to robić tak długo, jak długo ten kanał będzie otwarty.

Utrzymanie przewagi konkurencyjnej w dziedzinie technologii staje się jednak jeszcze trudniejsze teraz, kiedy najnowocześniejsze badania w ramach LLM są dostępne. Instytucje badawcze na całym świecie wykorzystują nawzajem swoje prace, badając przestrzeń rozwiązań w sposób znacznie przekraczający nasze możliwości. Możemy próbować trzymać się kurczowo naszych sekretów, podczas gdy innowacje z zewnątrz osłabiają ich wartość, albo możemy próbować uczyć się od siebie nawzajem.

Osoby fizyczne nie są ograniczone licencjami w takim samym stopniu jak korporacje

Wiele z tych innowacji odbywa się na bazie modeli, które wyciekły z Mety. Choć to się nieuchronnie zmieni, gdy prawdziwie otwarte modele będą coraz lepsze, chodzi o to, że nie oni nie muszą czekać. Ochrona prawna, jaką daje „użytek osobisty” i niepraktyczność ścigania osób, oznacza, że osoby prywatne uzyskują dostęp do tych technologii, gdy są one jeszcze „gorące”.

Bycie swoim własnym klientem oznacza, że doskonale rozumiesz „use case”

Przeglądając modele, które ludzie tworzą w przestrzeni generowania obrazów, można zauważyć ogromną kreatywność, od generatorów anime po krajobrazy HDR. Modele te są używane i tworzone przez ludzi, którzy są głęboko zanurzeni w konkretnym temacie, co daje głębię wiedzy i zrozumienia, z którymi nie możemy się równać.

Posiadanie ekosystemu: Niech Open Source pracuje za nas

Paradoksalnie, jedynym wyraźnym zwycięzcą w tym wszystkim jest Meta. Ponieważ model, który wyciekł, należał do nich, skutecznie pozyskali całą planetę dla bezpłatnej pracy dla siebie. Ponieważ większość innowacji open source AI jest wprowadzana na poziomie ich architektury, nic nie stoi na przeszkodzie, aby bezpośrednio włączyli je do swoich produktów.

Wartość posiadania ekosystemu jest nie do przecenienia. Google z powodzeniem wykorzystuje ten paradygmat w swoich produktach open source, takich jak Chrome i Android. Posiadając platformę, na której pojawiają się innowacje, Google umacnia się na pozycji lidera i podmiotu wyznaczającego kierunki rozwoju, zyskując możliwość kształtowania narracji na temat idei, które są większe niż on sam.

Im ściślej kontrolujemy nasze modele, tym bardziej atrakcyjne stają się otwarte alternatywy. Zarówno Google, jak i OpenAI wprowadziły rozwiązania, które pozwalają im zachować ścisłą kontrolę nad tym, jak ich modele są wykorzystywane. Ale ta kontrola jest fikcją. Każdy, kto chce wykorzystać LLM do nieusankcjonowanych celów, może po prostu wybrać jeden z dostępnych modeli open source.

Google powinno stać się liderem społeczności open source i przejąć inicjatywę poprzez współpracę, a nie ignorowanie szerszej dyskusji. Oznacza to prawdopodobnie podjęcie pewnych niewygodnych kroków, takich jak opublikowanie wag modeli dla małych wariantów LLM. To z pewnością oznacza rezygnację z pewnej kontroli nad naszymi modelami. Ale ten kompromis jest nieunikniony. Nie możemy mieć nadziei, że będziemy jednocześnie napędzać innowacje i je kontrolować.

Co z OpenAI?

Cały ten wywód może wydawać się nieuzasadniony, biorąc pod uwagę obecną zamkniętą politykę OpenAI. Dlaczego my musimy się dzielić, skoro oni nie chcą? Ale faktem jest, że już dzielimy się z nimi wszystkim w postaci stałego przepływu podkupionych naukowców. Dopóki nie powstrzymamy tej fali, utrzymywanie tajemnicy nie będzie miało sensu.

A w końcu i tak OpenAI nie ma znaczenia. Popełnia te same błędy, co my w swojej postawie wobec open source, a jego zdolność do utrzymania przewagi jest i będzie z konieczności kwestionowana. Alternatywy open source mogą i ostatecznie przyćmią ich, chyba że zmienią swoje stanowisko. Przynajmniej pod tym względem możemy wykonać pierwszy ruch.

W skrócie:

Wyciekł dokument Google’a wskazuje, że modele open-source AI szybko konkurują z gigantami takimi jak Google i OpenAI, oferując szybsze, bardziej konfigurowalne i wydajne rozwiązania.
Niektóre osiągnięcia open-source AI obejmują uruchamianie LLM na telefonach, skalowalną osobistą AI, odpowiedzialne udostępnianie i szybko rozwijającą się multimodalność.
W marcu, po wycieku modelu LLaMA firmy Meta, społeczność open-source rozpoczęła lawinę innowacji i eksperymentów, obniżając bariery wejścia dla osób indywidualnych.
Wzrost open-source AI jest porównywalny do wzrostu modeli generowania obrazów, z podobnymi przyczynami sukcesu, takimi jak tanie zaangażowanie społeczności i dostęp do modeli o wystarczającej jakości.
LoRA (Low Rank Adaptation) to kluczowa technika, która pozwala na dostrojenie modeli z mniejszymi kosztami i czasem, umożliwiając szybkie spersonalizowanie modeli językowych.
Przekwalifikowanie modeli LLM od podstaw jest trudne i mniej wydajne niż iteracyjne ulepszanie istniejących modeli, które stają się coraz bardziej dominujące w świecie open-source.
Dokument sugeruje, że Google powinno skupić się na wykorzystaniu osiągnięć open-source AI, zastanowić się nad swoją wartością dodaną i przemyśleć potrzebę tworzenia nowych, dużych modeli.
Aktualizacje LoRA są tanie i szybkie w produkcji, co prowadzi do szybkiego doskonalenia modeli, a ich jakość przewyższa nawet największe warianty ChatGPT. Skupienie się na utrzymaniu największych modeli stawia Google w niekorzystnej sytuacji.
Jakość danych skaluje się lepiej niż ich wielkość, a wysokiej jakości zbiory danych open source są dostępne dla wszystkich. Bezpośrednia rywalizacja z otwartym oprogramowaniem jest przegrana dla Google.
Utrzymywanie przewagi konkurencyjnej jest trudne, ponieważ informacje są dostępne i Google powinno współpracować z innymi, zamiast trzymać się swoich sekretów. Osoby prywatne nie są ograniczone przez licencje i korzystają z technologii na własny użytek.
Google powinno stać się liderem społeczności open source, współpracować z innymi, a nawet opublikować wagi modeli. Kontrolowanie innowacji staje się nieosiągalne, a OpenAI popełnia te same błędy co Google, więc obie firmy powinny zmienić swoje podejście.

Tomasz Sadowski

See author's posts

Google: „Jesteśmy bezbronni, podobnie jak OpenAI”

Tomasz Sadowski