Meta представи нов мощен AI модел Llama 2 Long

Meta Platforms на годишното събитие Meta Connect в Калифорния представени няколко нови AI функции за своите популярни приложения Facebook, Instagram и WhatsApp, но най-впечатляващата иновация от технологичния гигант може да е останала незабелязана от мнозина. Говорим за модела Llama 2 Long AI.

Екип от изследователи от компанията Meta някак тихо публикува статия, в която представя нов модел с изкуствен интелект, Llama 2 Long, способен да генерира последователни и подходящи отговори на дълги потребителски запитвания. Най-много, казват те, той превъзхожда някои от най-добрите конкуренти в индустрията.

Llama 2 Long е разширение Лама 2, AI модел с отворен код Meta, пуснат през лятото, който може да се учи от различни източници на данни и да изпълнява различни задачи като кодиране, математика, разбиране на език и др. Въпреки това, Llama 2 Long беше обучен на повече данни, съдържащи по-дълги текстове, и този алгоритъм беше модифициран, за да обработва по-дълги поредици от информация. Това му позволява да надмине GPT-3.5 Turbo и Claude 2 на OpenAI, които имат ограничения за количеството контекст, който могат да използват за генериране на отговори.

Изследователи Meta използва различни версии на Llama 2 - от 7 милиарда до 70 милиарда параметри, т.е. стойности, които AI моделът може да промени, като се учи от данните. Те добавиха още 400 милиарда токени (текстови единици) данни, които съдържаха по-дълги текстове от оригиналния набор от данни на модела. Те също така леко промениха архитектурата на AI модела, използвайки техниката Rotary Positional Embedding (RoPE), така че моделът да може да генерира точни и полезни отговори, използвайки по-малко информация и памет в сравнение с други методи.

Лама 2

Екипът използва подсилващо обучение от човешка обратна връзка (RLHF), метод, при който AI моделът се възнаграждава за правилни отговори и се коригира от човешки оценители, а синтетичните данни се генерират от самия чат на Llama 2, за да подобри представянето си при различни задачи .

Документът твърди, че моделът може да генерира висококачествени отговори на потребителски подкани с дължина до 200 40 знака, еквивалентни на около 2 страници текст. Изследователите казват, че Llama XNUMX Long е стъпка към създаването на по-общи и гъвкави AI модели, които могат да отговорят на сложните и разнообразни нужди на потребителите. Те също така признават потенциалните етични и социални последици от такива модели и призовават за по-нататъшни изследвания и диалог за това как те да се използват отговорно и ползотворно.

Прочетете също:

Dzhereloинтересен инженеринг

Регистрирай се

0 Коментари

Вградени рецензии

Вижте всички коментари

Други статии

Meta представи модела Llama 2 Long AI, който работи по-добре с дълги заявки

Последни коментари