🔒 Jak budować efektywne modele multimodalne?

Rozwój dużych modeli językowych pociągnął za sobą rozwój modeli wielomodalnych (zwanych też multimodalnymi), czyli takich które na wejściu mogą przyjąć więcej niż jeden typ danych (modalność). W tym przypadku, omawiamy możliwość analizy obrazu i tekstu jednocześnie.

dr inz. Agnieszka Mikołajczyk-Bareła

Ten artykuł jest częścią serii „Tłumaczymy! Naukowe świeżynki”, do której zapraszamy ekspertów, by dla nas objaśniali aktualne publikacje naukowe z dziedziny sztucznej inteligencji.

W ramach swojej pracy „MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training„ naukowcy z Apple’a postanowili przygotować „przepis na sukces”, czyli opracować wskazówki, jak wytrenować modele, aby odpowiednio analizowały wielomodalne wejścia i prawidłowo wykonywały instrukcje. Skupili się przy tym na dwóch aspektach: na architekturze modeli oraz danych treningowych. Przyjrzyjmy się bliżej temu, co opisali i co z tego wynika.

Autor

dr inz. Agnieszka Mikołajczyk-Bareła

Senior AI Engineer w start-upie Chaptr, autorka zbiorów danych, prac naukowych, i publikacji
View all posts

Ten artykuł jest częścią drukowanej edycji hAI Magazine. Aby go przeczytać w całości, wykup dostęp on-line

29,99 zł miesięcznie

Wykup dostęp

Zaloguj Pakiety

dr inz. Agnieszka Mikołajczyk-Bareła

Senior AI Engineer w start-upie Chaptr, autorka zbiorów danych, prac naukowych, i publikacji

Podziel się

dekoder, llm, mlm, multimodal, wizja-tekst

Podziel się

Może Cię zainteresować

Sebastian Kawecki

Chińscy eksperci wykorzystali LLM Mety podczas tworzenia narzędzia AI dla chińskiej armii

Według danych pozyskanych przez agencję informacyjną Reuters, LLM Mety – Llamy użyto w pracach nad narzędziem AI ChatBIT, które ma wspierać chińskie siły zbrojne.

05.12
Jeremiasz Krok

Boom na AI wpływa na rynek półprzewodników. Czy czeka nas kryzys?

ChatGPT, Midjourney, czy Gemini to narzędzia, których raczej przedstawiać nie trzeba. Ale biją one nie tylko rekordy popularności, ponieważ mają także gigantyczny wpływ na rynek półprzewodników.

28.10
dr Adam Gonczarek

🔒 Ekonomika LLM, czyli jak policzyć koszty wykorzystania komercyjnych modeli AI we własnym biznesie

W dobie gwałtownego rozwoju AI i rosnących możliwości wielkich modeli językowych (LLM) wiele start-upów mierzy się z dylematem, czy warto inwestować w rozwój własnych technologii AI na bazie modeli open-source (jak np.…

29.08
dr inż. Marek Kozłowski

🔒 Modele językowe

Jakie są modele językowe, czym się różnią i do czego służą?

29.08