
Η τεχνητή νοημοσύνη έχει αρχίσει να βρίσκεται σιγά-σιγά μπροστά από ένα σοβαρό πρόβλημα το οποίο αν δεν λυθεί θα επηρεάσει σε σημαντικό βαθμό τις εταιρείες που κάνουν χρήση της αλλά και τα μεγάλα γλωσσικά τους μοντέλα. Το πρόβλημα αυτό, όπως σημειώνει σε δημοσίευμά του ο Economist ονομάζεται «data wall» και βάσει αυτού, αναμένεται πως όλα τα λεξιλογικά δεδομένα που θα μπορεί να χρησιμοποιήσουν οι εταιρείες ΑΙ θα τελειώσουν το 2028.
Το πώς θα αντιμετωπιστεί αυτό το τείχος είναι ένα από τα μεγάλα ερωτήματα της ΑΙ και ίσως το πιο πιθανό να επιβραδύνει την πρόοδό της. Το «data wall» εξηγεί και γιατί το Reddit, μια ηλεκτρονική πλατφόρμα που αποτελείται από μεγάλες συζητήσεις χρηστών που βασίζονται κατά κύριο λόγο σε λέξεις και όχι εικόνες έχει βρεθεί στο ενδιαφέρον των εταιρειών ΑΙ και ειδικότερα των Google και OpenAI.
Η πρωτοκαθεδρία των ΗΠΑ στην ΑΙ και οι σοσιαλιστικές αξίες της Κίνας
Πώς μπορεί να αποφευχθεί το data wall
Μια προσέγγιση, σημειώνει ο Economist είναι να επικεντρωθούν στην ποιότητα των δεδομένων και όχι στην ποσότητα.Τα εργαστήρια ΑΙ δεν εκπαιδεύουν απλώς τα μοντέλα τους σε ολόκληρο το διαδίκτυο. Φιλτράρουν τα δεδομένα για να μεγιστοποιήσουν το βαθμό εκμάθησης των μοντέλων τους.
Ο Ναβίν Ράο της Databricks, μιας εταιρείας τεχνητής νοημοσύνης, λέει ότι αυτό είναι το «βασικό διαφοροποιητικό στοιχείο» μεταξύ των μοντέλων τεχνητής νοημοσύνης στην αγορά. Οι «αληθινές πληροφορίες» για τον κόσμο έχουν προφανώς σημασία το ίδιο ισχύει και για τη «λογική». Αυτό καθιστά τα ακαδημαϊκά εγχειρίδια, για παράδειγμα, ιδιαίτερα πολύτιμα. Αλλά ο καθορισμός της ισορροπίας μεταξύ των πηγών δεδομένων παραμένει κάτι σαν «σκοτεινή» τέχνη. Επιπλέον, έχει σημασία και η σειρά με την οποία το σύστημα συναντά διαφορετικούς τύπους δεδομένων. Αν συγκεντρώσει κάποιος όλα τα δεδομένα για ένα θέμα, όπως τα μαθηματικά, στο τέλος της διαδικασίας εκπαίδευσης, το μοντέλο μπορεί να εξειδικευτεί στα μαθηματικά αλλά να ξεχάσει κάποιες άλλες έννοιες.
Αυτές οι εκτιμήσεις μπορεί να γίνουν ακόμη πιο πολύπλοκες όταν τα δεδομένα δεν αφορούν απλώς διαφορετικά θέματα αλλά διαφορετικές μορφές. Εν μέρει λόγω της έλλειψης νέων δεδομένων κειμένου, κορυφαία μοντέλα όπως το GPT-4 της OpenAI και το Gemini της Google δέχονται αρχεία εικόνας, βίντεο και ήχου καθώς και κείμενα κατά τη διάρκεια της αυτοεπιβλεπόμενης μάθησής τους. Η εκπαίδευση σε βίντεο είναι πιο δύσκολη, δεδομένου ότι τα αρχεία βίντεο είναι πυκνά σε δεδομένα. Τα τρέχοντα μοντέλα συνήθως εξετάζουν ένα υποσύνολο καρέ για να απλοποιήσουν τα πράγματα.
Προσωπικά δεδομένα και τεχνητή νοημοσύνη
Όποια και αν είναι τα μοντέλα που χρησιμοποιούνται, η ιδιοκτησία αναγνωρίζεται όλο και περισσότερο ως ζήτημα. Το υλικό που χρησιμοποιείται στην εκπαίδευση των Μεγάλων Γλωσσικών Μοντέλων (LLMs) συχνά προστατεύεται από πνευματικά δικαιώματα και χρησιμοποιείται χωρίς τη συγκατάθεση ή την πληρωμή των κατόχων των δικαιωμάτων.
Η Getty Images μήνυσε την Stability ai, μια εταιρεία παραγωγής εικόνων, για μη εξουσιοδοτημένη χρήση των εικόνων της. Οι New York Times έχουν μηνύσει την OpenΑΙ και τη Microsoft για παραβίαση πνευματικών δικαιωμάτων εκατομμυρίων άρθρων. Άλλες εφημερίδες έχουν συνάψει συμφωνίες για την αδειοδότηση του περιεχομένου τους. Η News Corp, ιδιοκτήτρια της Wall Street Journal, υπέγραψε συμφωνία αξίας 250 εκατ. δολαρίων για πέντε χρόνια.
Οι δυνατότητες των μοντέλου μπορούν επίσης να βελτιωθούν όταν η έκδοση που παράγεται από την αυτοεπιβλεπόμενη μάθηση, γνωστή ως προ-εκπαιδευμένη έκδοση, βελτιώνεται με πρόσθετα δεδομένα κατά τη «μετεκπαίδευση». Καθώς τα δεδομένα προεκπαίδευσης στο διαδίκτυο στερεύουν, η «μετεκπαίδευση» είναι πιο σημαντική.
Συνθετικά δεδομένα
Μια άλλη λύση για να μην έρθει σε τέλμα η τεχνητή νοημοσύνη θα ήταν η χρήση συνθετικών δεδομένων, τα οποία δημιουργούνται από μηχανές και συνεπώς είναι απεριόριστα, σημειώνει ο Economist.
Αντί να σπρώχνουμε το τείχος δεδομένων πίσω λίγο-λίγο, μια άλλη λύση θα ήταν να το υπερπηδήσουμε εντελώς. Μια προσέγγιση είναι η χρήση συνθετικών δεδομένων, τα οποία δημιουργούνται από μηχανές και συνεπώς είναι απεριόριστα.
Μια ακόμη δυσκολία έγκειται στην επέκταση της ΑΙ σε περιβάλλοντα όπως η υγειονομική περίθαλψη ή η εκπαίδευση. Στα τυχερά παιχνίδια, υπάρχει σαφής ορισμός της νίκης και είναι ευκολότερο να συλλεχθούν δεδομένα σχετικά με το αν μια κίνηση είναι συμφέρουσα. Αλλού είναι πιο δύσκολο. Τα δεδομένα σχετικά με το τι είναι μια «καλή» απόφαση συλλέγονται συνήθως από ειδικούς. Αλλά αυτό είναι δαπανηρό, απαιτεί χρόνο και είναι μόνο μια αποσπασματική λύση, ενώ ο εμπειρογνώμονας μπορεί να κάνει κάποιο λάθος.
Είναι σαφές ότι η πρόσβαση σε περισσότερα δεδομένα -είτε προέρχονται από εξειδικευμένες πηγές, είτε παράγονται συνθετικά είτε παρέχονται από ανθρώπινους εμπειρογνώμονες- είναι το κλειδί για τη διατήρηση της ταχείας προόδου στην ΑΙ. Όπως και τα κοιτάσματα πετρελαίου, τα πιο προσιτά αποθέματα δεδομένων έχουν εξαντληθεί. Η πρόκληση τώρα είναι να βρεθούν νέα ή βιώσιμες εναλλακτικές λύσεις, καταλήγει ο Economist.


Latest News

Προχωρά την ανάπτυξη των δικών της AI μικροτσίπ η Meta Platforms
Η Meta Platforms έχει ξεκινήσει μια μικρή παραγωγή του τσιπ και σχεδιάζει να την αυξήσει για χρήση σε ευρεία κλίμακα, αν η δοκιμή πάει καλά

Η καλά κρυμμένη «συνταγή» της τεχνητής νοημοσύνης - Πώς οι εταιρείες παράγουν φθηνές λύσεις
Πόσο κοστίζει να ξεκινήσεις μια εταιρεία στην τεχνητή νοημοσύνη; - Η απάντηση κάθε μέρα όλο και λιγότερο

H Foxconn κατασκευάζει το FoxBrain, το δικό της μοντέλο τεχνητής νοημοσύνης
Στην προσπάθεια της Foxconn, συμμετείχε και η Nvidia παρεχοντας υποστήριξη μέσω του υπερυπολογιστή της στην Ταϊβάν και με τεχνικές συμβουλές

Γκάζι πατάει η Meta για ΑΙ με φωνητικές λειτουργίες
Βελτιωμένα χαρακτηριστικά εισάγει η Meta καθώς στοιχηματίζει στην τεχνολογία που οδηγεί την ανάπτυξη των λεγόμενων «πρακτόρων» AI

Νέο εμπόδιο για την Apple - Καθυστερεί τις υπηρεσίες AI στο iPhone
Η εξέλιξη αυτή σηματοδοτεί την τελευταία από μια σειρά οπισθοδρομήσεων στον οδικό χάρτη λογισμικού της Apple

Φρένο στις προσπάθειες Μασκ να αποτρέψει την OpenAI να γίνει κερδοσκοπική οντότητα
Δικαστής στην Καλιφόρνια αποφάσισε ότι ο Ίλον Μασκ δεν μπορεί να προχωρήσει στις νομικές προσπάθειές του να εμποδίσει την OpenAI να μετατραπεί σε κερδοσκοπική οντότητα.

Data Centers κατασκευάζει η Microsoft στις σκανδιναβικές χώρες
Η Microsoft αλλάζει στρατηγική στην κατασκευή των Data Centers και πλέον επιλέγει περιοχές με προσιτή και «καθαρή» ενέργεια

Η Google δοκιμάζει νέα μηχανή αναζήτησης
Το πειραματικό «ΑΙ Mode», προς το παρόν διαθέσιμο μόνο στους συνδρομητές του Google One AI Premium, προσφέρει περιλήψεις των αποτελεσμάτων αναζήτησης μαζί με σχετικούς συνδέσμους.

Εξωφρενικά και επικίνδυνα αποτελέσματα από μοντέλα ΑΙ που εκπαιδεύτηκαν να γράφουν ελαττωματικό κώδικα
Τι είναι και πόσο επικίνδυνα είναι τα απευθυγραμισμένα μοντέλα ΑΙ

DATAMITE 2025: Big Data και AI στο επίκεντρο του συνεδρίου του ΟΤΕ
Βασικά θέματα που συζητήθηκαν στο DATAMITE Meetup Event 2025, ήταν η σημασία των πλαισίων διακυβέρνησης δεδομένων και των ηθικών πρακτικών