![Microsoft: Μελετά τεχνητή νοημοσύνη που κατανοεί εικόνες και ήχους](https://www.ot.gr/wp-content/uploads/2023/02/Artificial-General-Intelligence.jpg)
Η Microsoft προχώρησε μέσω μίας μελέτης στα αποκαλυπτήρια ακόμη ενός μοντέλου τεχνητής νοημοσύνης, του Kosmos-1, ενός MLLM (multimodal large language model), το οποίο μπορεί όχι μόνο να ανταποκρίνεται σε γλωσσικές προτροπές αλλά και σε οπτικές ενδείξεις, οι οποίες μπορούν να χρησιμοποιηθούν για μια σειρά εργασιών, όπως η δημιουργία λεζάντας εικόνων, η οπτική απάντηση ερωτήσεων, κι άλλα.
Το ChatGPT της OpenAI βοήθησε στη διάδοση της έννοιας των LLM, όπως το μοντέλο GPT (Generative Pre-trained Transformer) και τη δυνατότητα μετατροπής μιας προτροπής κειμένου ή μιας εισαγωγής σε ένα ολοκληρωμένο τελικό κείμενο.
Ο Ίλον Μασκ ετοιμάζεται να δημιουργήσει τον αντίπαλο του ChatGPT
Όπως υποστηρίζουν οι ερευνητές τεχνητής νοημοσύνης της Microsoft, τα LLM εξακολουθούν να διερευνούν πολλαπλές μορφές περιεχομένου επεξεργασίας, όπως μηνύματα εικόνας και ήχου.
Σύμφωνα με τα όσα αναφέρονται στην μελέτη «Language Is Not All You Need: Aligning Perception with Language Models» η συγκεκριμένη πολυμορφική αντίληψη θεωρείται απαραίτητη για να αποκτήσει η τεχνητή γενική νοημοσύνη (AGI) δυνατότητες που θα μοιάζουν με το ChatGPT.
«Το πιο σημαντικό, το ξεκλείδωμα της πολυτροπικής εισόδου περιεχομένου διευρύνει σημαντικά τις εφαρμογές των μοντέλων γλώσσας σε τομείς υψηλής αξίας, όπως η πολυτροπική μηχανική εκμάθηση, η ευφυΐα εγγράφων και η ρομποτική», αναφέρει η μελέτη.
Η Microsoft λέει ότι το Kosmos-1 MLLM της μπορεί να αντιλαμβάνεται γενικές μεθόδους, να ακολουθεί οδηγίες (μηδενική εκμάθηση) και να μαθαίνει από τα συμφραζόμενα (εκμάθηση με λίγες λήψεις). «Ο στόχος είναι να ευθυγραμμιστεί η αντίληψη με τα LLM, έτσι ώστε τα μοντέλα να μπορούν να βλέπουν και να μιλάνε», υποστηρίζεται στην μελέτη.
Στα παραδείγματα χρήσης του Kosmos-1 περιλαμβάνει μια εικόνα που δείχνει ένα γατάκι και ένα άτομο που κρατά ένα χαρτί με ένα ζωγραφισμένο χαμόγελο στο στόμα του. Η προτροπή που δίνεται στην τεχνητή νοημοσύνη είναι «εξηγήστε γιατί αυτή η φωτογραφία είναι αστεία». Η απάντηση του Kosmos-1 είναι: «Η γάτα φοράει μια μάσκα που χαρίζει στη γάτα ένα χαμόγελο».
Κάθε ένα από τα παραδείγματα που εμφανίζονται στην μελέτη δείχνει τη δυνατότητα τεχνητής νοημοσύνης όπως το Kosmos-1 να αυτοματοποιούν μια εργασία σε πολλές καταστάσεις, από το να λένε σε έναν χρήστη των Windows 10 πώς να επανεκκινήσει τον υπολογιστή του (ή οποιαδήποτε άλλη εργασία με οπτική προτροπή), έως την ανάγνωση μιας ιστοσελίδας σχετικά με την έναρξη μιας αναζήτησης στο διαδίκτυο, την ερμηνεία δεδομένων υγείας από μια συσκευή, τη δημιουργία λεζάντας σε μια εικόνα και ούτω καθεξής.
Προς το παρόν το συγκεκριμένο μοντέλο τεχνητής νοημοσύνης δεν περιλαμβάνει δυνατότητες ανάλυσης βίντεο.
Οι ερευνητές της Microsoft εξέτασαν επίσης πώς το Kosmos-1 αποδίδει σε τεστ νοημοσύνης. Τα αποτελέσματα έδειξαν ένα «μεγάλο χάσμα απόδοσης μεταξύ του τρέχοντος μοντέλου και του μέσου επιπέδου ενός ενήλικου ανθρώπου», αλλά διαπίστωσαν επίσης ότι η ακρίβειά του δείχνει τη δυνατότητα για τα MLLM να «αντιλαμβάνονται αφηρημένα εννοιολογικά μοτίβα σε ένα μη λεκτικό πλαίσιο».
Η έρευνα για την «απάντηση σε ερωτήσεις ιστοσελίδων» είναι ενδιαφέρουσα δεδομένου του σχεδίου της Microsoft να χρησιμοποιήσει μοντέλα τεχνητής νοημοσύνης τέτοιου τύπου για να κάνει το Bing ικανότερη μηχανή αναζήτησης από την αντίστοιχη της Google.
Σύμφωνα με την μελέτη ο συγκεκριμένος τομέας απαιτεί από το μοντέλο να κατανοήσει τόσο τη σημασιολογία όσο και τη δομή των κειμένων. Εδώ, η δομή της ιστοσελίδας παίζει καθοριστικό ρόλο. «Η εργασία μπορεί να μας βοηθήσει να αξιολογήσουμε την ικανότητα του μοντέλου μας να κατανοεί τη σημασιολογία και τη δομή των ιστοσελίδων», εξηγούν οι ερευνητές της Microsoft.
![ot.gr](/wp-content/themes/whsk_otgr/common/imgs/fav.ico/favicon-32x32.png)
![ot.gr](/wp-content/themes/whsk_otgr/common/imgs/fav.ico/favicon-32x32.png)
Latest News
![Άλτμαν: Το κόστος χρήσης της τεχνητής νοημοσύνης θα μειώνεται κατά 10 φορές κάθε χρόνο](https://www.ot.gr/wp-content/uploads/2024/03/Sam-Altman-1-600x400.jpg)
Άλτμαν: Το κόστος χρήσης της τεχνητής νοημοσύνης θα μειώνεται κατά 10 φορές κάθε χρόνο
Ο Σαμ Άλτμαν, Διευθύνων Σύμβουλος της OpenAI, λέει ότι η τεχνητή νοημοσύνη θα χρησιμοποιείται συχνότερα καθώς το κόστος της θα συνεχίζει να πέφτει κατακόρυφα.
![Τεχνητή νοημοσύνη: Αντιδράσεις καλλιτεχνών για δημοπρασία έργων ΑΙ από τον Christie’s](https://www.ot.gr/wp-content/uploads/2025/02/AI-art-600x338.jpg)
Αντιδράσεις καλλιτεχνών για δημοπρασία έργων ΑΙ από τον οίκο Christie's
Οι δημιουργικές βιομηχανίες ανησυχούν ότι η παραγωγική τεχνητή νοημοσύνη θα μπορούσε να αντιγράψει ή ακόμα και να αντικαταστήσει τα πρωτότυπα έργα τους
![Τεχνητή νοημοσύνη: Ποιοί, πόσο και πως θα επενδύσουν στο όραμα Μακρόν](https://www.ot.gr/wp-content/uploads/2024/12/macron-600x400.jpg)
Ποιοί, πόσο και πως θα επενδύσουν στο όραμα Μακρόν για AI
Ο Γάλλος πρόεδρος μιλά πριν από τη σύνοδο κορυφής AI στο Παρίσι για το 109 δισ. ευρώ όραμα του
![InvestAI: Ευρωπαϊκές επενδύσεις 200 δισ. ευρώ στην τεχνητή νοημοσύνη](https://www.ot.gr/wp-content/uploads/2024/04/ot_ai2-600x352.png)
Ευρωπαϊκές επενδύσεις 200 δισ. ευρώ στην τεχνητή νοημοσύνη
Την πρωτοβουλία InvestAI για την κινητοποίηση 200 δισεκατομμυρίων ευρώ για επενδύσεις στην τεχνητή νοημοσύνη ανακοίνωσε σήμερα η πρόεδρος της Κομισιόν, Ούρσουλα φον ντερ Λάιεν
![Παπαδόπουλος (Witside): Μας ενδιαφέρουν οι στρατηγικές συνεργασίες, όχι η εξαγορά](https://www.ot.gr/wp-content/uploads/2025/02/Xristos-Papadopoulos-WITSIDE_image-1-600x494.jpeg)
Παπαδόπουλος (Witside): Μας ενδιαφέρουν οι στρατηγικές συνεργασίες, όχι η εξαγορά
Οι εξαγορές στην ευρύτερη αγορά της Πληροφορικής θα συνεχιστούν, εκτίμησε ο Χρήστος Παπαδόπουλος, CEO και ιδιοκτήτης της Witside
![NXP: Με 307 εκατ. δολ. αποκτά την Kinara, που αναπτύσσει τεχνολογία νευρωνικών μονάδων επεξεργασίας (NPUs)](https://www.ot.gr/wp-content/uploads/2025/02/Eindhoven-Netherlands-600x338.jpg)
Νέα εξαγορά απο την NXP - Αποκτά για 307 εκατ. δολ. εταιρεία που αναπτύσσει NPUs
Είναι η τρίτη εξαγορά για την ολλανδική εταιρεία NXP Semiconductors - Είχαν προηγηθεί η TTTech Auto (625 εκατ.δολ) και η Aviva Links για 242,5 εκατ.δολ.
![Μασκ: Προσφορά «μαμούθ» 97,4 δισ. δολάρια για την OpenAI](https://www.ot.gr/wp-content/uploads/2023/06/mask-1-600x400.jpg)
Προσφορά «μαμούθ» 97,4 δισ. δολαρίων από Μασκ για την OpenAI - Τι απάντησε ο Άλτμαν
Τι περιλαμβάνει η προσφορά - Οι παλιοί συνεργάτες Σαμ Άλτμαν και Μασκ «κοντράρονται» ήδη στα δικαστήρια για την κατεύθυνση της εταιρείας
![Εμανουέλ Μακρόν: Αγοράστε γαλλική και ευρωπαϊκή τεχνητή νοημοσύνη](https://www.ot.gr/wp-content/uploads/2025/02/MAKRO-600x400.jpeg)
Μακρόν: Αγοράστε γαλλική και ευρωπαϊκή τεχνητή νοημοσύνη
Χρειάζεται «οικονομικός πατριωτισμός» κατά τον πρόεδρο της Γαλλίας, που θα επενδύσει 109 δισ. ευρώ στην ΑΙ
![Oumi: Οι Έλληνες που θέλουν να φτιάξουν το αντίπαλο δέος της DeepSeek](https://www.ot.gr/wp-content/uploads/2025/02/ot_oumi_greek_team-600x352.png)
Οι Έλληνες που θέλουν να φτιάξουν το αντίπαλο δέος της DeepSeek - Τι είναι το OumiAI
H Oumi αποσκοπεί στο να γίνει η πρώτη πραγματικά ανοιχτή πλατφόρμα τεχνητής νοημοσύνης - Τι λέει ο Έλληνας CEO στο Ot.gr
![Μασκ: Γιατί το δικό του AΙ τον θεωρεί κακό άνθρωπο](https://www.ot.gr/wp-content/uploads/2025/01/Grok-600x364.png)
Πως κρίνει τον Ίλον Μασκ η ίδια του η δημιουργία
Το Grok AI που αναπτύχθηκε από την εταιρεία xAI του Ίλον Μασκ φαίνεται να έχει μερικά προβλήματα με τον δημιουργό του