Janus Pro - Analiza i generiranje slika
Ubrzo nakon što je DeepSeek svojim sada planetarno poznatim velikim jezičnim modelom koji je sposoban logički zaključivati zatresao AI zajednicu, objavio je još jedan model otvorena kôda, ali ovaj put specijaliziranog za stvaranje i analiziranje slika, čime izravno konkurira vodećim modelima i platformama, kao što je OpenAI-jev DALL-E 3…

Svega nekoliko dana nakon što je DeepSeek objavio svoj model DeepSeek-R1, tvrtka je objavila i otvoreni kôd svojeg multimodalnog modela sljedeće generacije, Janus Pro. Riječ je o modelu koji je prema prvim testovima nadmašio OpenAI-jev DALL-E 3 i Stable Diffusion 3 u generiranju slika i odgovaranju na pitanja na temelju učitane mu slike, a opet, izazvao je pravu senzaciju u AI krugovima korištenom arhitekturom. Naime, Janus Pro napravljen je na temelju modela DeepSeek-LLM-7B-base, a ono što taj model čini posebnim je njegova arhitektura, koja razdvaja vizualno kodiranje u odvojene putanje, zadržavajući pritom jedinstvenu transformersku arhitekturu. Time se nastoji riješiti konflikte između vizualnog razumijevanja i generiranja, omogućujući modelu da obavlja oba zadatka, ublažavajući sukob između uloga vizualnog kodera u razumijevanju i generiranju (više o tome može se pročitati u javno dostupnom radu Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation).