
Η αξιολόγηση από ομοτίμους βρίσκεται στον πυρήνα του ακαδημαϊκού κόσμου, όπου οι ερευνητές εξετάζουν επιμελώς ο ένας τα ευρήματα του άλλου πριν από τη δημοσίευση, διασφαλίζοντας την ποιότητα και την ακεραιότητα της επιστημονικής εργασίας. Η διαδικασία διπλής τυφλής αναθεώρησης, που υιοθετήθηκε από πολλούς εκδότες και οργανισμούς χρηματοδότησης, διαδραματίζει ζωτικό ρόλο στη διατήρηση της δικαιοσύνης και της αμερόληπτης απόκρυψης της ταυτότητας των συγγραφέων και των κριτικών. Ωστόσο, στην εποχή της τεχνητής νοημοσύνης (AI) και των μεγάλων δεδομένων, τίθεται ένα πιεστικό ερώτημα: μπορεί να συναχθεί η ταυτότητα ενός συγγραφέα ακόμη και από μια ανώνυμη εργασία (σε περιπτώσεις που οι συγγραφείς δεν διαφημίζουν το άρθρο τους στα μέσα κοινωνικής δικτύωσης);
Σε πρόσφατο άρθρο διερευνούμε αυτό ακριβώς το ερώτημα, αξιοποιώντας ένα μοντέλο τεχνητής νοημοσύνης που έχει εκπαιδευτεί στο μεγαλύτερο σύνολο δεδομένων απόδοσης συγγραφέων μέχρι σήμερα. Δημιουργήθηκε από τα δημόσια διαθέσιμα χειρόγραφα στον διακομιστή προεκτύπωσης arXiv, και περιλαμβάνει πάνω από 2 εκατομμύρια ερευνητικές εργασίες και δεκάδες χιλιάδες συγγραφείς. Εστιάζοντας αποκλειστικά σε καταξιωμένους ερευνητές με τουλάχιστον μερικές δεκάδες δημοσιεύσεις, η εργασία μας δείχνει ότι είναι δυνατή η αξιόπιστη ταυτοποίηση του συγγραφέα.
Η μελέτη μας εμβαθύνει στις δυνατότητες ενός προηγμένου μοντέλου τεχνητής νοημοσύνης που αξιοποιεί το περιεχόμενο κειμένου των ερευνητικών εργασιών και τις αναφορές που αναφέρονται από τους συγγραφείς για να προβλέψει την πιθανότητα ένας συγκεκριμένος ερευνητής να είναι ο συγγραφέας μιας εργασίας. Αυτός με την υψηλότερη προβλεπόμενη πιθανότητα είναι ο συγγραφέας που «μάντεψε» το μοντέλο. Το μοντέλο τεχνητής νοημοσύνης προβλέπει σωστά τη συγγραφή για τρεις στις τέσσερις εργασίες, ακόμη και σε ένα σύνολο δεδομένων με περισσότερους από 2.000 πιθανούς συγγραφείς. Για παραγωγικούς ερευνητές με εκτεταμένα αρχεία δημοσιεύσεων (πάνω από 100 εργασίες), η ακρίβεια αυξάνεται σε πάνω από 85 τοις εκατό.
Μετά τις πρόσφατες επιτυχίες της τεχνητής νοημοσύνης για την αξιολόγηση εργασιών που σχετίζονται με τη γλώσσα (π.χ. ChatGPT), αυτά τα αποτελέσματα μπορεί να μην εκπλήσσουν, ωστόσο τα ευρήματά μας έχουν σημαντικές επιπτώσεις στην ακεραιότητα της διαδικασίας διπλής τυφλής αναθεώρησης. Ενώ η εργασία μας δείχνει ότι οι μέθοδοι μηχανικής μάθησης μπορούν να χρησιμοποιηθούν για την απόδοση ανώνυμων ερευνητικών εργασιών, η κατανόηση του τρόπου με τον οποίο η τεχνητή νοημοσύνη είναι σε θέση να αναγνωρίσει έναν συγγραφέα παρέχει πολύτιμες οδηγίες που μπορούν να ακολουθήσουν οι συγγραφείς για να αυξήσουν την ανωνυμία τους:
- Περίληψη και εισαγωγή: διαπιστώνουμε ότι οι πρώτες 512 λέξεις μιας εργασίας, που συνήθως περιλαμβάνουν την περίληψη και την εισαγωγή, παρέχουν επαρκείς πληροφορίες για ισχυρή απόδοση συγγραφικού έργου. Η απόδοση του AI επηρεάζεται οριακά μόνο σε σύγκριση με την εξέταση ολόκληρου του εγγράφου. Πιστεύουμε ότι η περίληψη και η εισαγωγή αντικατοπτρίζουν συχνά τη δημιουργική ταυτότητα των συγγραφέων και τον ερευνητικό τους τομέα. Αυτά τα διακριτά γνωρίσματα διευκολύνουν την ταυτοποίηση του συγγραφέα, ιδιαίτερα καθώς οι συγγραφείς τείνουν συχνά να αναδιατυπώνουν εισαγωγές από προηγούμενα έργα τους.
- Αυτοαναφορές: Η ανάλυσή μας υπογραμμίζει επίσης τον ρόλο των αυτοαναφορών στην αποκάλυψη της ταυτότητας των συγγραφέων. Επιβεβαιώσαμε την κοινή υπόθεση ότι οι συγγραφείς αναφέρουν τον εαυτό τους πολύ συχνά. Κατά μέσο όρο, οι εργασίες στο σύνολο δεδομένων μας περιέχουν 10,8 τοις εκατό αυτοαναφορές, που χρησιμεύουν ως ένα εύκολο δώρο για την ταυτότητά τους. Έτσι, ενθαρρύνουμε τους συγγραφείς να παραλείψουν πολλές αυτοαναφορές κατά την υποβολή σε μια διπλή τυφλή κριτική για να ενισχύσουν την ανωνυμία τους.
- Ποικιλομορφία αναφορών: Ακόμη και όταν παραλείπονται οι αυτοαναφορές, οι αναφορές που αναφέρονται σε μια εργασία μπορούν να χρησιμοποιηθούν για την αναγνώριση του συγγραφέα. Με τη συμπερίληψη παραπομπών από λιγότερο γνωστές εργασίες, οι συγγραφείς μπορούν να ενισχύσουν την ανωνυμία τους, ενώ παράλληλα προωθούν την ίση προβολή για όλες τις έρευνες στον τομέα τους.
Ενώ η απόδοση συγγραφής εστιάζει σε ανώνυμα έγγραφα, η έρευνά μας διερευνά επίσης εφαρμογές στο πλαίσιο υπογεγραμμένων χειρογράφων για να βοηθήσει στην ανίχνευση λογοκλοπής και γραφής φαντασμάτων. Αξιοποιώντας τις προβλέψεις πιθανοτήτων του μοντέλου AI, μπορεί κανείς να προσδιορίσει την πιθανότητα το άτομο που υπέγραψε το έγγραφο να είναι ο πραγματικός συντάκτης. Ομοίως, μπορεί κανείς να ρωτήσει το μοντέλο για τους πιθανότερους συγγραφείς ενός χειρογράφου (π.χ. τους πέντε πρώτους ή τους κορυφαίους 10). Αυτό ανοίγει δρόμους για πιο περίπλοκες μεθόδους για τη διασταυρούμενη επικύρωση της αρχικής επιλογής πιθανών συγγραφέων του μοντέλου.
Συχνά, σε μικρά ερευνητικά πεδία, έμπειροι ερευνητές είναι σε θέση να μαντέψουν σωστά από ποια ερευνητική ομάδα προέρχεται μια ανώνυμη υποβολή, πιθανώς μεροληπτικά τη διαδικασία αξιολόγησης από ομοτίμους. Το δημοσιευμένο άρθρο μας είναι το πρώτο που προσφέρει πληροφορίες σχετικά με τα πιθανά τρωτά σημεία στη διατήρηση της ανωνυμίας κατά τη διαδικασία διπλής τυφλής αναθεώρησης στην εποχή της τεχνητής νοημοσύνης και των μεγάλων δεδομένων. Ενώ το μοντέλο τεχνητής νοημοσύνης μας δείχνει την ικανότητα να αποδίδουμε συγγραφείς σε ανώνυμες ερευνητικές εργασίες σε μεγάλη κλίμακα, τονίζουμε τη σημασία της διατήρησης της δικαιοσύνης και της αμερόληπτης συμπεριφοράς που υποστηρίζει η διαδικασία διπλής τυφλής αναθεώρησης. Επί του παρόντος, θα μπορούσαν να εφαρμοστούν απλά μέτρα, όπως η μείωση των αυτοαναφορών και η αποδοχή της ποικιλομορφίας των αναφορών, κατά το αρχικό στάδιο υποβολής για να ενισχυθεί η ανωνυμία.
Καθώς η αξιολόγηση από ομοτίμους είναι ένας τόσο θεμελιώδης πυλώνας της επιστήμης, ελπίζουμε ότι αυτή η μελέτη ενθαρρύνει την ερευνητική κοινότητα να διερευνήσει περαιτέρω πώς η τεχνητή νοημοσύνη αλλάζει την ίδια την κριτική από ομοτίμους. Έχουμε ανοιχτού κώδικα τη βάση κώδικα μας (https://github.com/uzh-rpg/authorship_attribution) με την ελπίδα ότι θα χρησιμεύσει ως αφετηρία για τους μελετητές να πάρουν το έργο μας και να το αναπτύξουν. Η απόδοση συγγραφής και ο εντοπισμός λογοκλοπής είναι ζωτικής σημασίας για τη διασφάλιση της συνεχούς ακεραιότητας και αξιοπιστίας της ακαδημαϊκής δημοσίευσης και η ενίσχυση της θα είναι επωφελής για ολόκληρη την επιστημονική κοινότητα.