ImageBind AI на Meta може да имитира човешкото възприятие

Meta публикува кода в изкуствения интелект с отворен достъп под името imagebind, който предвижда връзки между данни, подобни на това как хората възприемат или си представят околната среда. Докато генератори на изображения като Midjourney, Stable Diffusion и DALL-E 2 свързват думи с изображения, което ви позволява да създавате визуални сцени само на базата на текстово описание, ImageBind надхвърля това. Той може да свързва текст, изображения или видео, аудио, 3D измервания, температурни данни и данни за движение – и го прави без необходимост от предварително обучение при всяка възможност. Това е ранен етап от рамка, която в крайна сметка ще може да генерира сложни среди от прости входове, като текстова подкана, изображение или аудио (или комбинация от тях).

Проект Метавселена

Можете да мислите за ImageBind като приближение на машинното обучение към човешкото обучение. Например, ако стоите в динамична среда, като например оживена градска улица, мозъкът ви (най-вече несъзнателно) абсорбира гледки, звуци и други сетивни усещания, за да получи информация за преминаващи коли, високи сгради, времето и др. . Хората и другите животни са еволюирали, за да обработват тези данни за нашите генетични предимства: оцеляване и предаване на нашата ДНК. (Колкото повече знаете за заобикалящата ви среда, толкова повече можете да избягвате опасностите и да се адаптирате към средата си, за да оцелеете и да процъфтявате по-добре). Тъй като компютрите се доближават до имитирането на мултисензорните връзки на животните, те могат да използват тези връзки, за да генерират напълно реализирани сцени, базирани само на ограничени части от данни.

Така че докато можете да използвате Midjourney, за да създадете „басет хаунд в костюм на Гандалф, балансиращ върху плажна топка“ и да получите относително реалистична снимка на тази странна сцена, мултимодален AI инструмент като ImageBind може в крайна сметка да създаде видеоклип с кучето с подходящи звуци, включително подробна всекидневна, стайна температура и точното местоположение на кучето и всички останали в сцената. „Това създава отлична възможност за създаване на анимации от статични изображения чрез комбинирането им с аудио подкани“, отбелязват изследователите на Meta в техния блог, ориентиран към разработчиците. „Например, създателят може да комбинира изображение с будилник и пеещ петел и да използва аудио сигнал, за да сегментира петела или звука на будилника, за да сегментира часовника и да анимира и двете във видео поредица.“

Meta

Що се отнася до това какво друго може да се направи с тази нова играчка, тя ясно сочи към една от основните амбиции на Meta: VR, смесена реалност и метапространство. Например, представете си бъдещи слушалки, които могат да създават напълно реализирани 3D сцени (със звук, движение и т.н.) в движение. Или разработчиците на виртуални игри биха могли в крайна сметка да го използват, за да си спестят значителна част от усърдната работа в процеса на проектиране. По същия начин създателите на съдържание могат да създават завладяващи видеоклипове с реалистични саундтраци и движение, базирани само на текст, изображения или аудио. Също така е лесно да си представите как инструмент като ImageBind отваря нови врати в достъпността чрез генериране на мултимедийни описания в реално време, за да помогне на хората със зрителни или слухови увреждания да разберат по-добре околната среда.

Също интересно: Най-добрите инструменти, базирани на изкуствен интелект

„В типичните AI системи има специфично вграждане (т.е. вектори от числа, които могат да представят данни и техните връзки в машинното обучение) за всяка съответна модалност“, казва Мета. „ImageBind показва, че е възможно да се създаде общо пространство за вграждане за множество модалности, без да се налага да се обучават върху данни с всяка отделна комбинация от модалности. Това е важно, защото изследователите не могат да създават набори от данни с проби, които съдържат например аудио данни и топлинни данни от оживена градска улица или данни за дълбочина и текстово описание на крайбрежна скала.

Мета вярва, че тази технология в крайна сметка ще надхвърли сегашните шест „сетива“, така да се каже. „Въпреки че изследвахме шест модалности в нашето текущо проучване, ние вярваме, че въвеждането на нови модалности, които свързват възможно най-много сетива – като докосване, говор, обоняние и fMRI мозъчни сигнали – ще позволи по-богати ориентирани към човека AI модели.“ Разработчиците, които се интересуват от изследването на тази нова пясъчна среда, могат да започнат с потапяне в отворения код на Meta.

Прочетете също:

DzhereloEngadget

Регистрирай се

0 Коментари

Вградени рецензии

Вижте всички коментари

Други статии

ImageBind AI на Meta може да имитира човешкото възприятие

Последни коментари