GOOGLE GEMINI: η απάντηση στο GPT-4

Η GOOGLE παρουσίασε πρόσφατα το νέο της πολυτροπικό (multimodal) μεγάλο γλωσσικό μοντέλο με την ονομασία Gemini, το οποίο εντυπωσίασε με την ικανότητα του να γενικεύει, να κατανοεί και να λειτουργεί συνδυάζοντας διαφορετικούς τύπους πληροφοριών, όπως κείμενο, ήχο, κώδικα, βίντεο και εικόνα.

Το νέο σύνολο μοντέλων παραγωγικής ή γενετικής τεχνητής νοημοσύνης που η GOOGLE ονομάζει «το ξεκίνημα της εποχής Gemini» δεν θα διατεθεί αμέσως στην Ευρώπη - λόγω διάφορων κανονιστικών και ρυθμιστικών εμποδίων.

Ο τεχνολογικός γίγαντας αποκαλεί το Gemini «πιο ικανό μοντέλο που έχει υπάρξει ποτέ» και λέει ότι έχει εκπαιδευτεί για να αναγνωρίζει, να κατανοεί και να συνδυάζει διαφορετικούς τύπους πληροφοριών, όπως κείμενο, εικόνα, ήχο, βίντεο και κώδικα με τον Demis Hassabis, τον Διευθύνοντα Σύμβουλο του τμήματος DeepMind της GOOGLE να υποστηρίζει είναι εξίσου καλό αν όχι καλύτερο από τους καλύτερους ανθρώπινους ειδικούς και εμπειρογνώμονες σε 50 διαφορετικές θεματικές περιοχές στις οποίες δοκιμάστηκε το μοντέλο. Επιπλέον, σημείωσε βαθμολογία άνω του 90% χρησιμοποιώντας τα αναγνωρισμένα από τη βιομηχανία benchmarks για την ανάπτυξη μεγάλων γλωσσικών μοντέλων (LLM).

Το νέο μεγάλο γλωσσικό μοντέλο της GOOGLE που βεβαίως πρόκειται να τροφοδοτήσει και το Bard, το γνωστό chatbot της εταιρείας, θα διατεθεί σε τρεις εκδόσεις, που απευθύνονται σε διαφορετικούς πελάτες ανάλογα τη περίπτωση χρήσης:

Gemini Ultra - το μεγαλύτερο και ικανότερο μοντέλο για εξαιρετικά πολύπλοκες εργασίες.
Gemini Pro - το καλύτερο μοντέλο για κλιμάκωση σε ένα ευρύ φάσμα εργασιών.
Gemini Nano - το αποδοτικότερο μοντέλο για εργασίες εντός συσκευής (on-device).

Η GOOGLE αναφέρει ότι εκπαίδευσε την πρώτη έκδοση του Gemini (Gemini 1.0) στη βελτιστοποιημένη για τεχνητή νοημοσύνη υποδομή της χρησιμοποιώντας τις εσωτερικές μονάδες επεξεργασίας tensor που έχει αναπτύξει και πιο συγκεκριμένα τους TPU v4 και v5e. Μαζί με την παρουσίαση της οικογένειας Gemini, η GOOGLE ανακοίνωσε επίσης το Cloud TPU v5p που σχεδιάστηκε ειδικά για την εκπαίδευση μοντέλων αιχμής. Η σημαντικότερη πάντως εξέλιξη, όσον αφορά τους απλούς χρήστες, είναι ενδεχομένως το Gemini Nano, καθώς είναι βελτιστοποιημένο για on-device επεξεργασία. Το Nano θα επιτρέψει στους προγραμματιστές να δημιουργήσουν εφαρμογές Τεχνητής Νοημοσύνης που θα μπορούν να λειτουργούν και εκτός σύνδεσης -με πρόσθετα οφέλη την ενισχυμένη προστασία των ιδιωτικών πληροφοριών και των προσωπικών δεδομένων.

Η εταιρεία επίσης παρουσίασε και το AI Studio, ένα δωρεάν διαδικτυακό εργαλείο για προγραμματιστές για την ανάπτυξη και το λανσάρισμα εφαρμογών AI με τη χρήση ενός κλειδιού API. Όσον αφορά τη διάθεση του Gemini Pro σε προγραμματιστές και εταιρικούς πελάτες, ξεκίνησε από τις 13 Δεκεμβρίου. Το γνωστό chatbot της εταιρείας, Bard που είναι πλέον διαθέσιμο σε 170 περιοχές και χώρες έχει ήδη λανσαριστεί με το Gemini Pro στην «καρδιά» του. Η εταιρεία, στην ανάρτηση της στο επίσημο blog της αναφέρει επίσης ότι το Gemini Pro θα είναι διαθέσιμο στις περισσότερες από τις υπηρεσίες της, όπως στα GOOGLE Search, GOOGLE Ads ή Chrome μέσα στους επόμενους μήνες.

Oι χρήστες στην Ευρωπαϊκή Ένωση και στο Ηνωμένο Βασίλειο που επιθυμούν να δοκιμάσουν τις δυνατότητες της «νέας εποχής της Τεχνητής Νοημοσύνης της GOOGLE» θα πρέπει να περιμένουν λίγο περισσότερο καθώς είναι απαραίτητο να λάβει έγκριση από τις ρυθμιστικές αρχές. Η GOOGLE δεν παρείχε λεπτομέρειες, αλλά δήλωσε ότι σχεδιάζει να «επεκταθεί σε διαφορετικά modalities και να υποστηρίξει νέες γλώσσες και τοποθεσίες στο εγγύς μέλλον”.

Η εταιρεία σχεδιάζει να λανσάρει μία πρώτη έκδοση-προεπισκόπηση του «Bard Advanced» που θα τροφοδοτείται από το πολυτροπικό Gemini Ultra το επόμενο έτος. Η GOOGLE κυκλοφόρησε για πρώτη φορά το Bard τον Μάρτιο του 2023 ωστόσο λόγω ανησυχιών σχετικά με τη συμμόρφωση με τον Γενικό Ευρωπαϊκό Κανονισμό Προστασίας των Προσωπικών Δεδομένων (GDPR) δεν διατέθηκε στους Ευρωπαίους χρήστες παρά τον Ιούνιο. Τώρα, μένει να δούμε πόσο καιρό θα χρειαστεί να περιμένουμε για το Gemini.