
Екип изследователи от Института за компютърни науки, изкуствен интелект и технологии (INSAIT) към Софийския университет „Св. Климент Охридски“ представи GaussianVLM –
първия в света генеративен модел, който съчетава компютърно зрение и естествен език за разбиране на фотореалистично 3D съдържание.
Това съобщиха от най-старото ни висше училище.
Седмица след публикуването ѝ научната статия, която описва модела, се нарежда сред десетте най-четени в света според класацията Scholar Inbox – свидетелство за значимия интерес от страна на международната академична общност.
GaussianVLM дава възможност на роботизирани системи да анализират реални триизмерни сцени въз основа на обикновено видео, заснето с потребителска камера, без необходимост от специализиран хардуер. Моделът може да отговаря на въпроси като „Какво има на масата?“ или „Има ли достатъчно места за всички гости?“, демонстрирайки разбиране на цялостната пространствена и семантична структура на средата.
Това е първият модел, който поддържа въпроси без предварително зададени езикови ограничения и който може ефективно да обработва мащабни 3D сцени. Значителна иновация е компресирането на визуалната информация – от над 40 000 елемента до едва 132 токена, което позволява бърза и ефективна обработка от големи езикови модели.
Уебстраницата на проекта е достъпна тук

Уважаеми читатели, в. „Аз-буки“ и научните списания на издателството може да закупите от НИОН "Аз-буки":
Адрес: София 1113, бул. “Цариградско шосе” № 125, бл. 5
Телефон: 0700 18466
Е-mail: izdatelstvo.mon@azbuki.bg | azbuki@mon.bg