Jak Chat GPT jest szkolony?

jak-jest-szkolony-chat-gpt-768x435-718x.jpg

Jeśli jesteś zaznajomiony z ChatGPT, prawdopodobnie słyszałeś, że jest on szkolony na ogromnym zbiorze danych. Ale co to dokładnie oznacza? W tym artykule zajmiemy się szczegółami, jak właściwie jest szkolony ChatGPT?”

ChatGPT to wcześniej wytrenowany model językowy, który został dostosowany poprzez kombinację technik uczenia nadzorowanego i uczenia ze wzmocnieniem. Proces szkolenia ChatGPT polegał na wprowadzaniu dużej ilości danych tekstowych do modelu i dostosowywaniu jego parametrów tak, aby mógł generować tekst podobny do tekstu w korpusie treningowym.

Do tego procesu użyto podejścia uczenia nienadzorowanego, co oznacza, że model nie otrzymał explicite informacji zwrotnej na temat tego, czy generowany tekst jest poprawny czy niepoprawny. Zamiast tego, model dostosowuje swoje parametry na podstawie prawdopodobieństwa, że wygenerowany tekst jest podobny do tekstu w korpusie treningowym.

GPT-3, główny model ChatGPT-3, to jedno z największych modeli językowych, jakie kiedykolwiek stworzono, z 175 miliardami parametrów i kontekstem długości 2048-tokenów. Jest on szkoleny na setkach miliardów słów z Common Crawl, WebText2, Books1/2, Wikipedia w języku angielskim oraz przykładach kodu w językach CSS, JSX, Python i innych językach programowania.

Metodą szkoleniową używaną dla GPT-3 jest generatywne wstępne szkolenie, co oznacza, że jest szkolenia do przewidywania następnego tokena lub słowa w sekwencji wejściowej.

Najlepsze alternatywy dla Chat GPT

Uczenie się nadzorowane

Model ChatGPT był naszpikowany przez proces uczenia się z nadzorem trenerów ludzkich. Trenerzy ci uczestniczyli w rozmowach, pełniąc rolę zarówno użytkownika, jak i asystenta sztucznej inteligencji.

Dostawali sugestie od modelu, aby prowadzić ich do składania odpowiedzi, które następnie były mieszane z zbiorem danych InstructGPT przekonwertowanym na format dialogowy.

Uczenie ze wzmocnieniem

Model został dalej ulepszony poprzez reinforcement learning przy użyciu Proximal Policy Optimization (PPO). Ludzcy trenerzy oceniali odpowiedzi wygenerowane przez model z poprzedniej konwersacji i używali tych ocen do opracowania modeli nagród. Model został następnie doszlifowany na podstawie tych modeli nagród.

Proces dopasowania był kilkakrotnie powtarzany, aby osiągnąć lepszą wydajność. Algorytmy PPO są kosztowo skuteczne w porównaniu do innych algorytmów i wykazują szybszą wydajność, co czyni je idealnymi do tego procesu.

OpenAI w dalszym ciągu zbiera informacje od użytkowników, którzy korzystają z ChatGPT, które można następnie wykorzystać do dalszego udoskonalania i dopracowywania modelu.

Użytkownicy mają możliwość głosowania na odpowiedzi ChatGPT poprzez oddawanie głosów za lub przeciw oraz mają też możliwość udzielania dodatkowej informacji zwrotnej. Dane te są wykorzystywane do dalszej poprawy wydajności modelu i jeszcze lepszego generowania tekstu przypominającego ludzki.

Dane wykorzystane do szkolenia modelu

ChatGPT-3 to model językowy doskonale dopasowany z serii GPT-3.5, który został przeszkolony przy użyciu infrastruktury superkomputingowej Azure AI. Był szkolony na ogromnej liczbie tekstów zebranych z internetu, w tym książek, forów dyskusyjnych, artykułów, stron internetowych, prac naukowych, kodów i innych źródeł.

Korpus danych tekstowych użytych do szkolenia ChatGPT-3 miał rozmiar ponad 45 terabajtów, co jest niezwykle dużo i przyczynia się do zdolności modelu do generowania tekstów podobnych do tych, które mógłby stworzyć dziennikarz lub autor.

Powiązane artykuły

Zobacz więcej >>