Tεχνητή νοημοσύνη της Microsoft αναγνωρίζει εικόνες και λύνει οπτικά παζλ

4 Μαρτίου 2023

H αντιληπτική ικανότητα των μηχανών επεκτείνεται από το κείμενο στην οπτική πληροφορία.

Με απώτερο στόχο την ανάπτυξη μιας «γενικής τεχνητής νοημοσύνης» που θα μπορεί να εκτελεί οποιαδήποτε νοητική εργασία σε ανθρώπινο επίπεδο, ερευνητές της Microsoft παρουσίασαν πειραματικό σύστημα AI που όχι μόνο κατανοεί την ανθρώπινη γλώσσα αλλά επιπλέον αναγνωρίζει αντικείμενα σε εικόνες και λύνει οπτικά προβλήματα.

Το τελευταίο διάστημα η Microsoft σπεύδει να αξιοποιήσει εμπορικά την τεχνολογία του ChatGPT, ενός «μεγάλου γλωσσικού μοντέλου» της OpenAI που παράγει κάθε είδους κείμενα σύμφωνα με τις οδηγίες του χρήστη.

Πέρα όμως από τη συνεργασία της με την OpenAI, ο γίγαντας του λογισμικού πειραματίζεται με δικά της συστήματα που θα μπορούσαν να επεκτείνουν την τεχνολογία στην αντίληψη της οπτικής πληροφορίας.

«Η πολυμεσική αντίληψη είναι απαραίτητη προκειμένου να φτάσουμε στην γενική τεχνητή νοημοσύνη όσον αφορά την απόκτηση γνώσης και την επαφή με τον πραγματικό κόσμο» γράφουν ερευνητές της εταιρείας σε μελέτη τους που αναρτήθηκε ως προδημοσίευση στο αποθετήριο ArXiV.

H μελέτη, με τίτλο «Η Γλώσσα δεν Είναι το Μόνο που Χρειάζεσαι: Ευθυγραμμίζοντας την Αντίληψη με τα Γλωσσικά Μοντέλα» περιγράφει το Kosmos-1, ένα «πολυμεσικό γλωσσικό μοντέλο» που συνδυάζει τη γλώσσα με την όραση.

Τα γραφήματα της δημοσίευσης, αναφέρει το Ars Technica, δείχνουν το μοντέλο να αναλύει εικόνες και να απαντά σε ερωτήσεις για το περιεχόμενό τους, να διαβάζει κείμενο από εικόνες, να συντάσσει λεζάντες και να υποβάλλεται σε τεστ «οπτικού IQ».

Εκπαιδευμένο από δεδομένα στο Διαδίκτυο, το Kosmos-1 ξεπέρασε τις επιδόσεις άλλων προηγμένων μοντέλων, καμαρώνουν οι ερευνητές.

Ένα από τα τεστ στα οποία υποβλήθηκε το μοντέλο ήταν η «προοδευτικός λογισμός Ρέιβεν», ένα τεστ που μετρά το οπτικό IQ ζητώντας από τον εξεταζόμενο να συνεχίσει μια αλληλουχία σχημάτων.

Το Kosmos-1 δεν διέπρεψε, αφού απάντησε σωστά στο τεστ Ρέιβεν μόνο στο 26% των περιπτώσεων, συγκριτικά με 17% αν απαντούσε απλά στην τύχη,

Παρόλα αυτά, το μοντέλο της Microsoft επιβεβαιώνει ότι οι μηχανές σημειώνουν μεγάλη πρόοδο στην κατανόηση πληροφοριών.

Δεν είναι όμως το μόνο πειραματικό μοντέλο σε αυτό τον τομέα –η OpenAI, μεταξύ άλλων εταιρειών, έχει δηλώσει πως η γενική τεχνητή νοημοσύνη είναι ο απώτερος στόχος της.

Emma Koster

Η Έμμα Κόστερ είναι μια έμπειρη συγγραφέας και ηγέτης σκέψης με επίκεντρο τις νέες τεχνολογίες και τη βιομηχανία fintech. Κατέχει μεταπτυχιακό τίτλο στον χρηματοοικονομικό τεχνολογικό τομέα από το Πανεπιστήμιο Columbia, όπου καλλιέργησε την εξειδίκευσή της στη διασταύρωση χρηματοοικονομικών και τεχνολογίας. Με πάνω από μία δεκαετία εμπειρίας, η Έμμα έχει εργαστεί ως ανώτερη αναλύτρια στην Quorum Financial Services, όπου ανέπτυξε γνώσεις σχετικά με τις αναδυόμενες τάσεις και τις πρακτικές τους εφαρμογές στην αγορά. Η συγγραφή της συνδυάζει αυστηρή έρευνα με μια συναρπαστική αφηγηματική προσέγγιση, καθιστώντας τις πολύπλοκες θεματικές προσιτές σε ένα ευρύ κοινό. Το έργο της Έμμα έχει παρουσιαστεί σε κορυφαίες βιομηχανικές δημοσιεύσεις, και είναι μια περιζήτητη ομιλήτρια σε συνέδρια τεχνολογίας και χρηματοοικονομικών παγκοσμίως.

Don't Miss

Η Δημογραφική Πρόκληση της Ελλάδας: Μια Νέα Προσέγγιση

Στην καρδιά των εθνικών προκλήσεων που αντιμετωπίζει η Ελλάδα, το
Generate a realistic, high-definition image of a rare celestial phenomenon developing tonight. This could showcase a phenomenon such as an aurora, meteor shower, supermoon, or other rare astronomic event, with fine details and vibrant colors against the dark expanse of the night sky.

Βιώστε ένα Σπάνιο Ουράνιο Φαινόμενο Απόψε

Απολαύστε έναν εκπληκτικό αστρικό συμβάν απόψε καθώς η σελήνη φωτίζει