Google Gemini a multimodális AI

2024. január 24. by Bíró Gábor

A Gemini a Google legfejlettebb és legflexibilisebb AI-modellje, amely az adatközpontoktól a mobil eszközökig hatékonyan képes működni. Szövegek, programkódok, képek és videók feldolgozására alkalmas, és a jövőben jelentősen javíthatja a fejlesztők és vállalati ügyfelek mesterséges intelligencia alkalmazásának integrálását és skálázását.

A Gemini Ultra kimagasló teljesítményt nyújt 30 akadémiai teszten. Az MMLU-n elért 90%-os eredményével az első modell, amely túlszárnyalja az emberi szakértőket.

Az MMLU, a "Massive Multitask Language Understanding", széles körű nyelvi feladatok megértésére szolgáló teszt, amelyet az AI és nyelvi modellek értékelésére használnak. Ez a teszt az AI modellek általános nyelvi megértését és alkalmazhatóságát méri többféle témakörön és feladattípuson keresztül. Különösen fontos az AI fejlesztésében, mivel segít megérteni, hogy a nyelvi modellek mennyire hatékonyak a valós világ sokféle és összetett nyelvi kihívásaival szemben.

A Gemini három méretben érhető el:

1. Gemini Ultra: a legnagyobb modell komplex feladatokhoz.
2. Gemini Pro: optimális modell széles körű feladatokra.
3. Gemini Nano: a legkisebb modell eszközökön történő feladatokhoz.

Ezek a modellvariációk azonos szoftverarchitektúrát használnak, amely dekóder-alapú transzformer modelleken alapul, 32,768 tokenes kontextushosszal.

A Gemini multimodális képességekkel rendelkezik, amelyek lehetővé teszik többféle típusú adat, mint a szöveges, képi és audio adatok feldolgozását és integrálását.

Egy multimodális rendszer vagy modell egyidejűleg dolgoz fel több adattípust, átfogóbb és összetettebb megértést nyújtva, mint a különálló adattípusok kezelése esetén. Ez különösen hasznos lehet olyan feladatokban, ahol a különböző adattípusok kombinálása hozzájárul a probléma jobb megértéséhez vagy megoldásához.

A Gemini első verziójában magas színvonalú kódot értelmez és generál a legnépszerűbb programozási nyelveken. A Gemini Ultra több kódolási mérőszámon is kiemelkedik. Az AlphaCode 2, egy speciális Gemini verzióval fejlettebb kódgeneráló rendszer, amely versenyprogramozási feladatokban teljesít kiválóan, automatikusan generálva programozási megoldásokat.

A Gemini 1. a Google saját tervezésű Tensor Processing Units (TPUs) segítségével tanították be nagymennyiségű adaton. A TPU olyan speciális hardvereszköz, amelyet kifejezetten gépi tanulási feladatok és mesterséges intelligencia alkalmazások hatékony végrehajtására terveznek, ellentétben az általános célú processzorokkal (mint az Intel vagy AMD CPU-k), amelyeket széles körű felhasználásra gyártanak.

A Google Gemini 1.0 AI modellje érdekes helyzetet teremt a piacon, különösen a Microsoft helyzetére nézve, amely az OpenAI GPT-jével áll kapcsolatban. A Gemini több szempontból különbözik a GPT-4-től, mint például multimodális képességek, több modellméret, és biztonsági korlátok. A Gemini chatfunkciói bizonyos nyelveken problémásak voltak, ami késleltette a bevezetését.

A fejlesztők még nem alkalmazzák széles körben a generatív AI eszközöket a termelésben, így a piac nyitott a versenyre. A Microsoft előnyt élvez a GitHub Copilot és az Azure felhőplatform révén. A Google-nek hiányzik egy GitHub-hoz hasonló eszköze vagy széles körben elfogadott IDE-je, mint a Microsoft Visual Studio Code-ja. Ezért, bár a Google-nek lehet a legkiválóbb kódasszisztens rendszere, a Microsoft integrált megközelítése előnyt jelenthet.