Специалистите от Центъра за дигитална журналистика Tow към Columbia Journalism Review са проучили колко точно търсачките с изкуствен интелект определят източниците на новини. Резултатите не са обнадеждаващи: когато услугите с изкуствен интелект се опитват да намерят заглавието на статия, името на изданието или датата на публикуване по фрагмент от текст, те грешат в над 60% от случаите.
Проблемът е особено актуален на фона на нарастващата популярност на подобни инструменти. Авторите на изследването Клаудия Язвинская и Айсвария Чандрасекар установяват, че всеки четвърти американец вече предпочита да търси информация не чрез традиционните търсачки като Google или Bing а с помощта на системи, базирани на изкуствен интелект.
В хода на експеримента експертите тестват 8 услуги, способни да обработват заявки за търсене в реално време. Графиките ясно показаха мащаба на проблема: Grok 3 постави антирекорд, като сгреши в 94% от случаите. ChatGPT Search даваше грешни отговори на 67% от заявките (134 от 200). Дори лидерът по точност (системата Perplexity) допусна грешки в 37% от проверките.

Методологията на тестване не оставяше място за двусмислие: анализаторите копираха точни откъси от публикувани статии и поискаха от всяка система да идентифицира оригиналния източник на материала – да намери заглавието, издателя, времето на публикуване и уеб адреса. В хода на проучването те проведоха 1600 такива теста, като отбелязаха не само верността на отговорите, но и степента на увереност, с която алгоритмите ги предоставиха.
Вместо да разпознават пропуски в знанията, машините създавали правдоподобни, но напълно измислени отговори – т.нар. конфабулации. Те не се поколебаха да генерират несъществуващи цитати или да измислят убедително изглеждащи дати на публикуване. Това поведение се наблюдаваше при всички тествани софтуери.
Парадоксален факт: скъпите платени версии на търсачките показаха по-лоши от безплатните. Например, абонаментът за Perplexity Pro за 20 долара и Grok 3 за 40 долара на месец значително намали надеждността на резултатите. За разлика от базовите версии, които открито съобщават за невъзможността за намиране на отговор, премиум услугите се стремят да отговорят на всеки въпрос, дори ако той изисква въображение. Изводите са очевидни: парите не гарантират надеждна информация.
Отделен проблем е как системите с изкуствен интелект пренебрегват основните правила на интернет. Става дума за стандарта robots.txt – специален файл в уебсайтовете, който указва на роботите на търсачките кои страници могат да бъдат индексирани и кои не. Този протокол служи като основен инструмент за защита на съдържанието в продължение на много години. Новите услуги с изкуствен интелект обаче просто го игнорират. Безплатната версия на Perplexity лесно намери и обработи 10 статии на National Geographic, които бяха защитени от индексиране – въпреки че изданието изрично забрани на услугите с ИИ да имат достъп до съдържанието му.
Алгоритмите често пренасочват читателите не към оригиналните статии, а към сайтове-агрегатори като Yahoo News. Това се случва дори с материали на издания, които са подписали официални споразумения с разработчици на ИИ. Експертите отбелязват, че тази практика лишава издателите от легитимен трафик и приходи от реклама.
Повече от половината линкове, предлагани от Google Gemini и Grok 3 водят до несъществуващи страници. Статистиката на последния е особено лоша: от 200 проверени адреса 154 се оказаха неработещи.
По този начин издателите се оказват в истинска задънена улица. Да се забрани на алгоритмите да индексират материали чрез robots.txt означава да се загубят препратките към авторството, тъй като софтуерът все пак ще намери публикации на други сайтове. Даването на разрешение не означава никаква гаранция, че аудиторията ще стигне до оригиналния сайт източник.
OpenAI и Microsoft получиха резултатите от проучването, но предпочетоха да се измъкнат от официални отговори. OpenAI само повтори обещанието си да помага на издателите. Компанията ще цитира техните материали, ще дава директни линкове и винаги ще посочва източниците. Microsoft на свой ред заяви, че спазва правилата на robots.txt и се вслушва в желанията на притежателите на авторски права.
Източник: Kaldata
Leave a Reply