ChatGPT получи зрение – ботът се научи да разбира видео транслацията от камерата и екрана на смартфон

Сподели с приятели.

OpenAI обяви, че чатботът ChatGPT, който е базиран на генеративна интелигентност, има способността да обработва видео поток и да говори с потребителите за това, което „наблюдава“, използвайки смартфон или компютърна камера, или каквото вижда на екрана на устройството. Новата функция е достъпна в Разширен гласов режим (Advanced Voice Mode).

Компанията обяви, че ChatGPT ще получи функция за компютърно зрение, която му позволява да „вижда“ с помощта на камерата на потребителския смартфон или чрез транслация на екрана. Собствениците на платените абонаменти ChatGPT Plus, Team и Pro вече имат достъп до разширения гласов режим на ChatGPT. Компанията казва, че абонатите на ChatGPT Enterprise и Edu няма да получат функцията до януари и че няма график за нейното стартиране в ЕС, Швейцария, Исландия, Норвегия и Лихтенщайн.

В скорошна демонстрация в програмата на CNN “60 минути“, президентът на OpenAI Грег Брокман тества разширения гласов режим с визуално разпознаване с участието на телевизионния водещ Андерсън Купър. Темата е била анатомичните умения на чатбота. Когато Купър нарисува части от тялото на дъската, ChatGPT „разбра“ какво рисува. В същото време ChatGPT направи грешка в геометричната задача в този режим, което показва склонността му към халюцинации.

От обявяването му през май компанията няколко пъти отложи пускането на подобрен гласов режим с визуално разпознаване. През април OpenAI обеща, че режимът ще бъде достъпен за потребителите „в рамките на няколко седмици“, но призна месеци по-късно, че ще отнеме повече време от планираното. И когато разширеният гласов режим стартира за някои потребители през септември, той нямаше функционалност за компютърно зрение.

Google и Meta също работят върху подобни възможности за своите чатботове. Тази седмица Google направи своята AI-функция за анализ на видео в реално време Project Astra достъпна за група „доверени тестери“ на платформата Android.