Root NationНовиниIT новиниMicrosoft представи мултимодален подход, проправящ пътя към ИИ на човешко ниво

Microsoft представи мултимодален подход, проправящ пътя към ИИ на човешко ниво

-

В началото на тази седмица изследователи от Microsoft представи Kosmos-1, мултимодален модел на изкуствен интелект, който може да анализира изображения за съдържание, да решава визуални пъзели, да извършва визуално разпознаване на текст, да прави визуални IQ тестове и да разбира инструкции на естествен език. Според изследователите подобни AI модели са първата стъпка към създаването на изкуствен общ интелект (AI), който може да изпълнява съвместни задачи на ниво човек. Тоест тази технология ще може да замени човек във всяка интелектуална задача. И това е заявената цел на OpenAI, ключов бизнес партньор Microsoft в областта на изкуствения интелект.

Космос-1

В случая Космос-1 е чисто лична разработка на компанията Microsoft. Изследователите наричат ​​своето творение „мултимодален широк езиков модел“ (MLLM), тъй като неговите корени се крият в обработката на естествен език само за текст, като LLM, като ChatGPT. За да може моделът да приеме входни изображения, изследователите трябва първо да конвертират изображенията в специална серия от токени (главно текст), които LLM могат да разберат.

Космос-1

Kosmos-1 беше обучен на база данни от Интернет, включително извлечения от The Pile (800 GB текстов ресурс на английски език) и Common Crawl. След това моделът беше тестван с няколко теста за разбиране на реч, генериране на реч, класификация на текст без оптично разпознаване на знаци, надписи на изображения, визуален отговор на въпроси, отговор на въпроси в уеб страница и класификация на изображения с локализация. Според Microsoft, Kosmos-1 превъзхожда настоящите модели в много от тези тестове.

Космос-1

Особено интересен беше тестът на Raven's Progressive Reasoning, който измерва визуалния коефициент на интелигентност, като представя последователност от форми и моли субекта да завърши последователността. Kosmos-1 успя да даде правилния отговор в 22% от случаите.

Космос-1

Тези ранни стъпки, които с бъдеща оптимизация, биха могли да доведат до още по-значими резултати, позволявайки на AI моделите да възприемат и влияят на всяка форма на медия, разширявайки значително възможностите на изкуствените асистенти.

Прочетете също:

DzhereloArstechnica
Регистрирай се
Уведомете за
гост

0 Коментари
Вградени рецензии
Вижте всички коментари