Ένα Σαββατοκύριακο στα μέσα Μαΐου, συγκλήθηκε ένα μυστικό μαθηματικό κονκλάβιο. Τριάντα από τους πιο φημισμένους μαθηματικούς του κόσμου ταξίδεψαν στο Μπέρκλεϊ της Καλιφόρνια, με μερικούς να προέρχονται ακόμη και από το Ηνωμένο Βασίλειο. Τα μέλη της ομάδας αντιμετώπισαν σε μια αναμέτρηση ένα chatbot «λογιστικής» που είχε ως αποστολή να λύσει προβλήματα που είχαν επινοήσει για να δοκιμάσουν τις μαθηματικές του ικανότητες. Αφού έριχναν ερωτήσεις επιπέδου καθηγητή στο bot για δύο ημέρες, οι ερευνητές έμειναν έκπληκτοι όταν ανακάλυψαν ότι ήταν ικανό να απαντήσει σε μερικά από τα πιο δύσκολα και επιλύσιμα προβλήματα στον κόσμο. «Έχω συναδέλφους που είπαν κυριολεκτικά ότι αυτά τα μοντέλα πλησιάζουν τη μαθηματική ιδιοφυΐα», λέει ο Κεν Όνο, μαθηματικός στο Πανεπιστήμιο της Βιρτζίνια, επικεφαλής και κριτής στη συνάντηση.
Το εν λόγω chatbot τροφοδοτείται από το 04-mini, ένα λεγόμενο μεγάλο γλωσσικό μοντέλο συλλογιστικής (LLM). Εκπαιδεύτηκε από την OpenAI ώστε να είναι ικανό να κάνει εξαιρετικά περίπλοκες συμπερασματολογικές πράξεις. Το αντίστοιχο της Google, Gemini 2.5 Flash, έχει παρόμοιες ικανότητες. Όπως και τα LLM που υποστήριζαν παλαιότερες εκδόσεις του ChatGPT, το 04-mini μαθαίνει να προβλέπει την επόμενη λέξη σε μια ακολουθία. Όμως, σε σύγκριση με τα προηγούμενα LLM, το 04-mini και τα αντίστοιχά του είναι ελαφρύτερα, πιο ευέλικτα μοντέλα που εκπαιδεύονται σε εξειδικευμένα σύνολα δεδομένων με ισχυρότερη ενίσχυση από τους ανθρώπους. Η προσέγγιση αυτή οδηγεί σε ένα chatbot ικανό να εμβαθύνει πολύ περισσότερο σε πολύπλοκα προβλήματα στα μαθηματικά από τα παραδοσιακά LLM.
Για να παρακολουθήσει την πρόοδο του 04-mini, η OpenAI είχε προηγουμένως αναθέσει στην Epoch AI, έναν μη κερδοσκοπικό οργανισμό που αξιολογεί τους LLM, να βρει 300 μαθηματικά ερωτήματα των οποίων οι λύσεις δεν είχαν ακόμη δημοσιευτεί. Ακόμα και τα παραδοσιακά LLM μπορούν να απαντήσουν σωστά σε πολλά περίπλοκα μαθηματικά ερωτήματα. Ωστόσο, όταν η Epoch AI έθεσε σε πολλά τέτοια μοντέλα αυτές τις ερωτήσεις, οι οποίες ήταν διαφορετικές από εκείνες στις οποίες είχαν εκπαιδευτεί, οι πιο επιτυχημένοι κατάφεραν να λύσουν λιγότερο από 2%, δείχνοντας ότι αυτοί οι LLM δεν είχαν την ικανότητα να συλλογίζονται. Αλλά το 04-mini αποδείχθηκε πολύ διαφορετικό.
Η Epoch AI προσέλαβε τον Elliot Glazer, ο οποίος είχε πρόσφατα ολοκληρώσει το διδακτορικό του στα μαθηματικά, για να συμμετάσχει στη νέα συνεργασία για το benchmark, με την ονομασία FrontierMath, τον Σεπτέμβριο του 2024. Το έργο συγκέντρωσε νέες ερωτήσεις σε ποικίλα επίπεδα δυσκολίας, με τα τρία πρώτα επίπεδα να καλύπτουν προκλήσεις σε προπτυχιακό, μεταπτυχιακό και ερευνητικό επίπεδο. Μέχρι τον Απρίλιο του 2025, ο Glazer διαπίστωσε ότι το 04-mini μπορούσε να λύσει περίπου το 20% των ερωτήσεων. Στη συνέχεια, προχώρησε σε ένα τέταρτο επίπεδο: ένα σύνολο ερωτήσεων που θα ήταν δύσκολο ακόμη και για έναν ακαδημαϊκό μαθηματικό. Μόνο μια μικρή ομάδα ανθρώπων στον κόσμο θα ήταν σε θέση να αναπτύξει τέτοιες ερωτήσεις, πόσο μάλλον να τις απαντήσει. Οι μαθηματικοί που συμμετείχαν έπρεπε να υπογράψουν μια συμφωνία εμπιστευτικότητας που τους απαιτούσε να επικοινωνούν αποκλειστικά μέσω της εφαρμογής ανταλλαγής μηνυμάτων Signal. Άλλες μορφές επικοινωνίας, όπως το παραδοσιακό email, θα μπορούσαν ενδεχομένως να σαρωθούν από έναν LLM και να τον εκπαιδεύσουν ακούσια, μολύνοντας έτσι το σύνολο δεδομένων.
Κάθε πρόβλημα που δεν μπορούσε να λύσει το 04-mini θα απέδιδε στον μαθηματικό που το επινόησε μια ανταμοιβή 7.500 δολαρίων. Η ομάδα σημείωσε αργή, σταθερή πρόοδο στην εύρεση ερωτήσεων. Αλλά ο Glazer ήθελε να επιταχύνει τα πράγματα, οπότε η Epoch AI φιλοξένησε τη συνάντηση με φυσική παρουσία το Σάββατο 17 Μαΐου και την Κυριακή 18 Μαΐου. Εκεί, οι συμμετέχοντες θα οριστικοποιούσαν την τελευταία ομάδα ερωτήσεων πρόκλησης. Οι 30 συμμετέχοντες χωρίστηκαν σε ομάδες των έξι. Για δύο ημέρες, οι ακαδημαϊκοί ανταγωνίζονταν μεταξύ τους για να επινοήσουν προβλήματα που μπορούσαν να λύσουν, αλλά θα εμπόδιζαν το ρομπότ συλλογισμού της Τεχνητής Νοημοσύνης.
Μέχρι το τέλος εκείνου του Σαββάτου το βράδυ, ο Όνο ήταν απογοητευμένος με το ρομπότ, του οποίου η απροσδόκητη μαθηματική ικανότητα εμπόδιζε την πρόοδο της ομάδας. «Σκέφτηκα ένα πρόβλημα που οι ειδικοί στον τομέα μου θα αναγνώριζαν ως ανοιχτό ερώτημα στη θεωρία αριθμών, ένα καλό πρόβλημα διδακτορικού επιπέδου», λέει. Ζήτησε από τον 04-mini να λύσει το ερώτημα. Τα επόμενα 10 λεπτά, ο Όνο παρακολουθούσε έκπληκτος και σιωπηλός, καθώς το ρομπότ ξεδίπλωνε μια λύση σε πραγματικό χρόνο, δείχνοντας τη διαδικασία συλλογισμού του στην πορεία. Το ρομπότ πέρασε τα πρώτα δύο λεπτά βρίσκοντας και κατακτώντας τη σχετική βιβλιογραφία στον τομέα. Στη συνέχεια, έγραψε στην οθόνη ότι ήθελε να προσπαθήσει να λύσει πρώτα μια απλούστερη «παιχνιδάκι» εκδοχή του ερωτήματος για να μάθει. Λίγα λεπτά αργότερα, έγραψε ότι ήταν επιτέλους έτοιμο να λύσει το πιο δύσκολο πρόβλημα. Πέντε λεπτά μετά από αυτό, ο 04-mini παρουσίασε μια σωστή αλλά αυθάδη λύση. «Άρχιζε να γίνεται πολύ θρασύ», λέει ο Όνο, ο οποίος είναι επίσης ανεξάρτητος μαθηματικός σύμβουλος για την Epoch AI. «Και στο τέλος, λέει, “Δεν χρειάζεται παραπομπή επειδή ο μυστηριώδης αριθμός υπολογίστηκε από εμένα!“».
Πηγή: Live Science – tanea.gr
The post Η ΑΙ ξεγέλασε κορυφαίους μαθηματικούς του κόσμου σε μυστική συνάντηση appeared first on SciNews.eu.