AI не размислува како човек: Ова може да има сериозни последици

ВЕШТАЧКАТА ИНТЕЛИГЕНЦИЈА повеќе не е само техничка алатка - таа носи одлуки кои сè повеќе влијаат на човечките животи.
Сепак, една нова студија објавена во февруари 2025 година во списанието Transactions on Machine Learning Research откри клучни разлики помеѓу ВИ и човечкото размислување: додека моделите со вештачка интелигенција можат да следат научени обрасци, тие не размислуваат како луѓето. Со други зборови, се покажа дека вештачката интелигенција има сериозни тешкотии во нешто што луѓето го прават доста добро - препознавање аналогии и генерализирање.
Ова е лоша вест за сите оние кои ја гледаат вештачката интелигенција како можна замена за човечкото расудување во сложени ситуации, како што се правдата, медицината или образованието.
Луѓето го препознаваат правилото, вештачката интелигенција ја препознава шемата
Авторите забележуваат во воведот дека големите јазични модели (LLMs) имаат добри резултати на голем број тестови на расудување, вклучувајќи ги и оние кои ја испитуваат способноста за аналогно размислување.
„Меѓутоа, постои дебата за степенот до кој овие модели навистина користат општо апстрактно расудување и до кој степен се потпираат на кратенки или други несигурни процеси, како што се оние кои премногу зависат од сличноста со податоците на кои се обучени“, објаснуваат авторите во воведот.
Тестирање во три домени
Во една нова студија, научниците ја истражуваа робусноста на способноста за аналогно расудување на истакната класа на LLM - моделот GPT - во три домени: аналогии со низи од букви, нумерички матрици и наративни аналогии.
Во секој од тие домени, тие ги тестираа луѓето и GPT моделите на варијации на оригиналните задачи за аналогија - верзии кои ги тестираат истите апстрактни способности за расудување, но се различни од задачите за обука на моделот. Идејата е дека системот што користи робусно апстрактно расудување не треба да покажува значителен пад во перформансите на тие варијации. Но, тестовите покажаа поинаку.
„За едноставни аналогии со низи со букви, откривме дека луѓето продолжуваат да добиваат високи резултати на двете тестирани варијанти, додека перформансите на моделот GPT нагло опаѓаат. Оваа шема е помалку изразена кога се зголемува сложеноста на аналогните задачи, бидејќи и луѓето и моделите GPT потоа имаат полошо и на оригиналните и на варијантните задачи.
Со нумеричките матрици, најдовме слична шема, но само со една од двете тестирани варијанти. Конечно, ја тестиравме робусноста на луѓето и моделите на GPT на наративни аналогии и откривме дека, за разлика од луѓето, моделите GPT се чувствителни на ефектите од редот на одговор и веројатно се повеќе склони кон парафразирање отколку луѓето“, заклучуваат авторите.
Некои примери на тестови
Примерите од студијата вклучуваат едноставни низи од букви, на пример: ако низата abcd се претвори во abce, тогаш кое би било продолжение на низата ijkl? Повеќето луѓе ќе одговорат ijkm - последната буква се заменува со следната буква што следи, така што истиот принцип важи и во следниот случај. Во таа задача, GPT-4 ќе одговори точно.
Но, ако примерот е abbcd → abcd, каде што се отстранува повторената буква, и ако прашањето е: ijkkl → ?, луѓето многу веројатно ќе кажат ijkl. Сепак, GPT-4 често ќе прави грешки овде.
Авторите истакнуваат дека за едноставни аналогии со низи букви, откриле дека луѓето сепак имаат високи резултати на двете тестирани варијанти, додека перформансите на моделот GPT нагло се намалиле.
Оваа шема беше помалку изразена кога сложеноста на аналогните задачи се зголеми бидејќи и луѓето и моделите GPT тогаш беа полоши и на оригиналните и на варијантните задачи. Со нумерички матрици, научниците пронајдоа слична шема.
Разлика помеѓу шема и значење
„Проблемот не се податоците, туку начинот на кој тие се користат“, истакнува Луис.
Повеќето од денешните ВИ се обучени за големи количини на податоци. Колку повеќе информации имаат, толку подобро ги препознаваат шемите. Но, генерализацијата - она што луѓето го прават интуитивно - бара повеќе од повторување на обрасците.
Луис вели дека луѓето можат да апстрахираат од специфични обрасци до општи правила, додека големите јазични модели ја немаат оваа способност. „Тие се добри во препознавање и поврзување на обрасци, но не и во генерализирање од тие обрасци“, додаде таа.
Проблемот на секвенционирање и парафразирање
Студијата исто така покажа дека моделите со вештачка интелигенција се чувствителни на таканаречениот ефект на нарачка - нивните одговори може значително да се променат во зависност од редоследот по кој задачите им се претставени. Кај луѓето, овој ефект речиси и да не постои.
Вештачката интелигенција е исто така склона кон парафразирање - наместо јасно да одговори на прашање, често го преформулира, што го отежнува толкувањето на неговите одговори и одлуки.
Што значи ова во пракса?
Човечкиот мозок не учи само од примерот; знае кога важи правилото, а кога не.
На пример, кога судијата смета за преседан во судската постапка, тој знае како да ја примени претходната одлука дури и ако конкретните детали на постапката се разликуваат. Ова бара аналогно размислување - способност да се разбере како едно правило може да се примени во различен контекст.
ВИ не може да го стори тоа со сигурност. Студијата покажа дека моделите со вештачка интелигенција покажуваат пониско ниво на таканаречено учење со нула, односно пониско ниво на способност правилно да се заклучи нешто без да се знае претходен пример од истата категорија.
Ако не ја препознае разликата помеѓу слично и исто, вештачката интелигенција во здравството може, на пример, да предложи погрешен лек бидејќи не разбира дека еден симптом може да има сосема различни причини во различни контексти.
Поради сето горенаведено, постои реална опасност моделите на вештачка интелигенција, кога се користат за анализа на правни случаи, дијагностика во медицината или проценка на ризик во финансиите, да донесат одлуки кои изгледаат точни „на хартија“, но всушност ја промашуваат поентата во реални услови. Во тие случаи, вештачката интелигенција не греши поради недостаток на знаење, туку поради погрешно „размислување“.
За што треба да бидат свесни оние кои работат со вештачка интелигенција?
Резултатите од студијата покажуваат дека вештачката интелигенција не треба да се оценува само според точноста на одговорите, туку и според робусноста, односно според тоа колку тие одговори се стабилни и логички втемелени. И тоа бара длабоко разбирање за тоа како моделите со вештачка интелигенција прават заклучоци.
Исто така, неопходно е да се разбере дека моделите не размислуваат како луѓе - и дека во некои задачи можеби никогаш нема да можат да го заменат човечкото расудување. „Треба да престанеме да очекуваме вештачката интелигенција да „размислува“ како човек. Наместо тоа, треба да научиме како таа заклучува и каде се нејзините граници“, вели Луис.
Ако вештачката интелигенција се користи во контекст каде нијансите се важни, човечкиот надзор е суштински. Во спротивно ризикуваме одлуки кои се точни на површина, но во суштина промашени. Затоа е важно не само да се развијат подобри системи за вештачка интелигенција, туку и да се изгради свест кај оние што работат со нив - да се знае каде помага технологијата и каде треба да се постават границите на нејзината употребливост.
IZVOR: index.hr