Η τεχνητή νοημοσύνη έχει αρχίσει να βρίσκεται σιγά-σιγά μπροστά από ένα σοβαρό πρόβλημα το οποίο αν δεν λυθεί θα επηρεάσει σε σημαντικό βαθμό τις εταιρείες που κάνουν χρήση της αλλά και τα μεγάλα γλωσσικά τους μοντέλα. Το πρόβλημα αυτό, όπως σημειώνει σε δημοσίευμά του ο Economist ονομάζεται «data wall» και βάσει αυτού, αναμένεται πως όλα τα λεξιλογικά δεδομένα που θα μπορεί να χρησιμοποιήσουν οι εταιρείες ΑΙ θα τελειώσουν το 2028.
Το πώς θα αντιμετωπιστεί αυτό το τείχος είναι ένα από τα μεγάλα ερωτήματα της ΑΙ και ίσως το πιο πιθανό να επιβραδύνει την πρόοδό της. Το «data wall» εξηγεί και γιατί το Reddit, μια ηλεκτρονική πλατφόρμα που αποτελείται από μεγάλες συζητήσεις χρηστών που βασίζονται κατά κύριο λόγο σε λέξεις και όχι εικόνες έχει βρεθεί στο ενδιαφέρον των εταιρειών ΑΙ και ειδικότερα των Google και OpenAI.
Η πρωτοκαθεδρία των ΗΠΑ στην ΑΙ και οι σοσιαλιστικές αξίες της Κίνας
Πώς μπορεί να αποφευχθεί το data wall
Μια προσέγγιση, σημειώνει ο Economist είναι να επικεντρωθούν στην ποιότητα των δεδομένων και όχι στην ποσότητα.Τα εργαστήρια ΑΙ δεν εκπαιδεύουν απλώς τα μοντέλα τους σε ολόκληρο το διαδίκτυο. Φιλτράρουν τα δεδομένα για να μεγιστοποιήσουν το βαθμό εκμάθησης των μοντέλων τους.
Ο Ναβίν Ράο της Databricks, μιας εταιρείας τεχνητής νοημοσύνης, λέει ότι αυτό είναι το «βασικό διαφοροποιητικό στοιχείο» μεταξύ των μοντέλων τεχνητής νοημοσύνης στην αγορά. Οι «αληθινές πληροφορίες» για τον κόσμο έχουν προφανώς σημασία το ίδιο ισχύει και για τη «λογική». Αυτό καθιστά τα ακαδημαϊκά εγχειρίδια, για παράδειγμα, ιδιαίτερα πολύτιμα. Αλλά ο καθορισμός της ισορροπίας μεταξύ των πηγών δεδομένων παραμένει κάτι σαν «σκοτεινή» τέχνη. Επιπλέον, έχει σημασία και η σειρά με την οποία το σύστημα συναντά διαφορετικούς τύπους δεδομένων. Αν συγκεντρώσει κάποιος όλα τα δεδομένα για ένα θέμα, όπως τα μαθηματικά, στο τέλος της διαδικασίας εκπαίδευσης, το μοντέλο μπορεί να εξειδικευτεί στα μαθηματικά αλλά να ξεχάσει κάποιες άλλες έννοιες.
Αυτές οι εκτιμήσεις μπορεί να γίνουν ακόμη πιο πολύπλοκες όταν τα δεδομένα δεν αφορούν απλώς διαφορετικά θέματα αλλά διαφορετικές μορφές. Εν μέρει λόγω της έλλειψης νέων δεδομένων κειμένου, κορυφαία μοντέλα όπως το GPT-4 της OpenAI και το Gemini της Google δέχονται αρχεία εικόνας, βίντεο και ήχου καθώς και κείμενα κατά τη διάρκεια της αυτοεπιβλεπόμενης μάθησής τους. Η εκπαίδευση σε βίντεο είναι πιο δύσκολη, δεδομένου ότι τα αρχεία βίντεο είναι πυκνά σε δεδομένα. Τα τρέχοντα μοντέλα συνήθως εξετάζουν ένα υποσύνολο καρέ για να απλοποιήσουν τα πράγματα.
Προσωπικά δεδομένα και τεχνητή νοημοσύνη
Όποια και αν είναι τα μοντέλα που χρησιμοποιούνται, η ιδιοκτησία αναγνωρίζεται όλο και περισσότερο ως ζήτημα. Το υλικό που χρησιμοποιείται στην εκπαίδευση των Μεγάλων Γλωσσικών Μοντέλων (LLMs) συχνά προστατεύεται από πνευματικά δικαιώματα και χρησιμοποιείται χωρίς τη συγκατάθεση ή την πληρωμή των κατόχων των δικαιωμάτων.
Η Getty Images μήνυσε την Stability ai, μια εταιρεία παραγωγής εικόνων, για μη εξουσιοδοτημένη χρήση των εικόνων της. Οι New York Times έχουν μηνύσει την OpenΑΙ και τη Microsoft για παραβίαση πνευματικών δικαιωμάτων εκατομμυρίων άρθρων. Άλλες εφημερίδες έχουν συνάψει συμφωνίες για την αδειοδότηση του περιεχομένου τους. Η News Corp, ιδιοκτήτρια της Wall Street Journal, υπέγραψε συμφωνία αξίας 250 εκατ. δολαρίων για πέντε χρόνια.
Οι δυνατότητες των μοντέλου μπορούν επίσης να βελτιωθούν όταν η έκδοση που παράγεται από την αυτοεπιβλεπόμενη μάθηση, γνωστή ως προ-εκπαιδευμένη έκδοση, βελτιώνεται με πρόσθετα δεδομένα κατά τη «μετεκπαίδευση». Καθώς τα δεδομένα προεκπαίδευσης στο διαδίκτυο στερεύουν, η «μετεκπαίδευση» είναι πιο σημαντική.
Συνθετικά δεδομένα
Μια άλλη λύση για να μην έρθει σε τέλμα η τεχνητή νοημοσύνη θα ήταν η χρήση συνθετικών δεδομένων, τα οποία δημιουργούνται από μηχανές και συνεπώς είναι απεριόριστα, σημειώνει ο Economist.
Αντί να σπρώχνουμε το τείχος δεδομένων πίσω λίγο-λίγο, μια άλλη λύση θα ήταν να το υπερπηδήσουμε εντελώς. Μια προσέγγιση είναι η χρήση συνθετικών δεδομένων, τα οποία δημιουργούνται από μηχανές και συνεπώς είναι απεριόριστα.
Μια ακόμη δυσκολία έγκειται στην επέκταση της ΑΙ σε περιβάλλοντα όπως η υγειονομική περίθαλψη ή η εκπαίδευση. Στα τυχερά παιχνίδια, υπάρχει σαφής ορισμός της νίκης και είναι ευκολότερο να συλλεχθούν δεδομένα σχετικά με το αν μια κίνηση είναι συμφέρουσα. Αλλού είναι πιο δύσκολο. Τα δεδομένα σχετικά με το τι είναι μια «καλή» απόφαση συλλέγονται συνήθως από ειδικούς. Αλλά αυτό είναι δαπανηρό, απαιτεί χρόνο και είναι μόνο μια αποσπασματική λύση, ενώ ο εμπειρογνώμονας μπορεί να κάνει κάποιο λάθος.
Είναι σαφές ότι η πρόσβαση σε περισσότερα δεδομένα -είτε προέρχονται από εξειδικευμένες πηγές, είτε παράγονται συνθετικά είτε παρέχονται από ανθρώπινους εμπειρογνώμονες- είναι το κλειδί για τη διατήρηση της ταχείας προόδου στην ΑΙ. Όπως και τα κοιτάσματα πετρελαίου, τα πιο προσιτά αποθέματα δεδομένων έχουν εξαντληθεί. Η πρόκληση τώρα είναι να βρεθούν νέα ή βιώσιμες εναλλακτικές λύσεις, καταλήγει ο Economist.
Latest News
Η Google αλλάζει τον τρόπο που μαθαίνουμε τις ειδήσεις – Τι είναι η λειτουργία «Daily listen»
Η Google δοκιμάζει μια νέα λειτουργία, με τη βοήθεια της τεχνητής νοημοσύνης, που θα αλλάξει για πάντα τον τρόπο ενημέρωσης των χρηστών.
Η Τεχνητή νοημοσύνη κατά της φοροδιαφυγής - Το σχέδιο της ΑΑΔΕ
Η εφορία δημιουργεί ενιαίο προφίλ για κάθε φορολογούμενο - Οι άξονες του Στρατηγικού Σχεδίου
Τα μοντέλα ΑΙ... ξέμειναν από ανθρώπινα δεδομένα - Τι προβλέπει ο Μασκ
Το σωρευτικό άθροισμα της ανθρώπινης γνώσης έχει εξαντληθεί στην εκπαίδευση μοντέλων για την τεχνητή νοημοσύνη
Απώλειες 200.000 θέσεων εργασίας φέρνει η AI στη Wall Street
Ποια τμήματα των παγκόσμιων τραπεζών θα επηρεαστούν περισσότερο από την Τεχνητή Νοημοσύνη
Το θηριώδες ποσό που εξασφάλισε η startup που ανταγωνίζεται την OpenAI
Η startup τεχνητής νοημοσύνης Anthropic πλησιάζει σε συμφωνία για να συγκεντρώσει επιπλέον 2 δισεκατομμύρια δολάρια
Επένδυση 11 δισ. από την AWS για υποδομές τεχνητής νοημοσύνης
Η Amazon και άλλες μεγάλες εταιρείες τεχνολογίας επενδύουν δισεκατομμύρια δολάρια σε υποδομές τεχνητής νοημοσύνης
Mega deal για τις ανάγκες της ΑΙ - Σε πορεία συγχώνευσης Getty Images και Shutterstock
Ο Craig Peters, CEO της Getty θα παραμείνει διευθύνων σύμβουλος της νέας συνδυασμένης επιχείρησης αξιας 3,7 δισ. δολ. - Υπολογίζουν σε συνέργειες μεταξύ 150 και 200 εκατ. δολ.
Χρηματοδότηση-ρεκόρ για τις startup τεχνητής νοημοσύνης το 2024
Το συνολικό ποσό χρηματοδότησης για startup επιχειρήσεις αυξήθηκε το περασμένο έτος, κατά περίπου ένα τρίτο σε σχέση με το 2023
Νέα πανίσχυρα gaming chips με τη χρήση ΑΙ ανακοίνωσε η Nvidia
Η Nvidia ανέφερε ότι τα τσιπ της σειράς RTX 50 θα υποστηρίζουν μια δυνατότητα που ονομάζεται DLSS 4 που χρησιμοποιεί AI
Αύξηση κατά 15% το 2025 στην παραγωγή ημιαγωγών με κινητήρια δύναμη την AI
Η IDC αναμένει διψήφια ανάπτυξη για την παγκόσμια βιομηχανία ημιαγωγών το 2025, αλλά η βιομηχανία θα πρέπει να πορευτεί σε πολλαπλές μεταβλητές