ChatGPT-4o s textovými aj zvukovými funkciami

GPT-4o („o“ ako „omni“) je najnovší multimodálny veľký jazykový model (LLM) od OpenAI.

Prináša zásadný pokrok v oblasti generovania textového, hlasového a obrazového obsahu, aby ponúkol prirodzenejšiu interakciu medzi používateľmi a AI. Spoločnosť tvrdí, že jej nový model AI dokáže reagovať na zvukové vstupy už za 232 milisekúnd a je výrazne rýchlejší v textových reakciách na neanglické výzvy s podporou viac ako 50 jazykov. Model môžete počas rozprávania aj prerušiť novými otázkami alebo vysvetleniami.

GPT-4o je tiež vybavený schopnejším, ľudsky znejúcim hlasovým asistentom, ktorý reaguje v reálnom čase a dokáže pozorovať používateľské okolie prostredníctvom kamery v zariadení. Asistentovi možno dokonca prikázať, aby znel veselšie, alebo prepnúť späť na robotickejšie znejúci hlas. Získať možno tiež preklady v reálnom čase vo viac ako 50 jazykoch a môže fungovať ako asistent pre zrakovo postihnutých.

Firma vo svojom živom vysielaní predviedla dlhý zoznam schopností GPT-4o. Tie budú k dispozícii pre používateľov bezplatnej úrovne ChatGPT, zatiaľ čo používatelia ChatGPT Plus získajú 5-krát vyššie limity správ. Textové a obrazové funkcie GPT-4o sú už dostupné v aplikácii ChatGPT a na webe. Nový hlasový režim bude k dispozícii v alfa verzii pre ChatGPT Plus v nasledujúcich týždňoch.

V súvislosti s tým spoločnosť OpenAI oznámila desktopovú aplikáciu ChatGPT pre macOS, pričom verzia pre Windows sa objaví neskôr v tomto roku. Spoločnosť OpenAI tiež oznámila svoj obchod ChatGPT Store, v ktorom sa nachádzajú milióny vlastných chatovacích botov, ku ktorým majú používatelia bezplatný prístup.

Zdroj