Криза: Интернет се дави в спам

Сподели с приятели.

Интернет вече съвсем не е същият, какъвто беше през 90-те години. Тогава търсехме интересни сайтове в Yahoo и в различните тематични каталози. Търсачките не съществуваха преди появата на AltaVista. Дори не ставаше дума да се създават боклучави сайтове за превъртане на реклами, за продажба на ненужни продукти или за измама на хората. Търговията все още не беше навлязла в интернет.

Сега всичко е различно. Почти никой вече не гледа на интернет като на технологично чудо или научен инструмент. За мошениците той е просто още един начин да мамят хората. Не малко от така наречените бизнесмени от 2000 г. след като научиха за съществуването на електронната поща, първият им въпрос беше как могат да се изпратят хиляди писма с техните реклами? Фактът, че спамът е неморален, изобщо не ги притесняваше пред лицето на потенциалните печалби. Търговците просто имат различна ценностна система.

И въпросът далеч не е само в електронната поща. Същото е и с уебсайтовете, блоговете и останалата част от UGC (Universal Consumer Content): днес всичко се генерира автоматично с цел оптимизация за търсачките, за прецакване на обикновените хора и печелене на пари по всеки възможен начин.

Понякога изглежда, че в интернет са останали само 5% полезно съдържание – и 95% спам.

Спам в търсачките

Черните техники на оптимизация за търсачките (SEO) завладяват техните алгоритмите и така търсенето в Google безнадеждно затъва в боклук.

През последните години качеството на търсенето в Google рязко спадна. Днес цялата първа страница е от реклами и спам.

Самата Google влошава ситуацията, като продава множество позиции в резултатите от търсенето, а в крайна сметка платените линкове по същество не се различават от спама при търсенето, просто последният се опитва да си проправи път до върха безплатно. Ако превъртите надолу, веднага след рекламата започва спамътът за търсачките, който е оптимизиран за SEO боклук:

Това важи за всички популярни заявки.

Напоследък ситуацията стана още по-лоша, защото оптимизаторите на спам започнаха да генерират текстове с помощта на големи езикови модели (LLM), така че стана много по-лесно да се генерират боклуци. Освен това те просто тъпо крадат съдържанието от информационните сайтове, които имат висок PageRank и рейтинг (Wikipedia, Stack Overflow и т.н.). В идеалния случай търсачката би трябвало да наказва подобни клонинги и веднага да им понижава рейтинга, но това не винаги се случва.

Неотдавнашно проучване на учени от Лайпцигския университет и Ваймарския университет „Баухаус“ (Германия) показа наличието на огромно количество спам в резултатите от търсенето. Графиките по-долу показват, че позицията в търсачката ясно корелира с атрибутите на SEO оптимизацията:

Напоследък изследователите забелязват и влошаване на качеството на търсенето.

Ситуацията е толкова плачевна, че потребителите трябва да инсталират специални разширения като uBlacklist, за да блокират спам сайтове в резултатите от търсенето:

В името на афилиейт линковете и трафика от търсачките спамърите създават фалшиви блогове с фалшиви личности и безсмислени генерирани текстове, за да привлекат трафика от търсачките.

Модерен блогспам. Фалшив блог от фалшив човек. Дори самото лице очевидно е генерирано от невронна мрежа Този човек не съществува

Спамърите проникват във всяка платформа, която се индексира от търсачките.

Спам в Twitter и социалните мрежи, каталозите за приложения, пакетните мениджъри

Предполага се, че в близко бъдеще LLM боклуците ще запълнят всички възможни празнини, в които е изгодно да се използват невронни мрежи вместо хора:

филмовите сценарии (вече сега значителна част от сценариите на нискобюджетни филми се генерират от LLM, включително и обикновените диалози);
поп музиката;
литературните произведения;
медийни статии;
публикации в блогове и социални медии.
Гласова комуникация по телефона (техническа поддръжка, обслужване на клиенти).

Спамът е достигнал дори до NPM пакетите: според статистиката 25% от новите пакети през второто тримесечие на 2024 г. съдържат спам. Особено показателна е рекламната кампания на протокола Tea, който предлага финансови награди на разработчиците на софтуер с отворен код, като ги стимулира да клонират чуждите хранилища и пакети и дори да генерират безсмислен код, с който да ги запълват. Там възнаграждението зависи от приноса. Тоест, колкото повече са хранилищата, толкова по-доходоносно е това. Оттук и хилядите безсмислени клонинги и най-различни разклонения.

Разпределение на финансовите възнаграждения между разработчиците на софтуер с отворен код, използващи протокола Tea, като се вземат предвид зависимостите на приложенията

Самата платформа насърчава потребителите да се ангажират с такова поведение, като предлага награди (в точки) за изпълнение на различни задачи, включително вирусно разпространение на информация в социалните мрежи:

Подобна е ситуацията и в Github, където количеството спам е извън контрол. Криптоспамъри и измамници, които пускат публикация с тагове на много други, реални потребители – и след това бързо я изтриват. Въпреки това всеки потребител на Github, „тагнат“ в поста, получава копие от текста по пощата. Гениален начин за иницииране на изпращане на съобщения по имейл. Тя изглежда по следния начин:

Ако преминете през действителните спамерски теми при търсенето, ще ги намерите в коментарите за искания за пул и грешки, това са стотици коментари:

За съжаление Github не разполага с ефективна система за филтриране на спама, така че рекламните коментари се задържат с дни и седмици, вместо да бъдат незабавно премахнати. Още повече боклук има в каталога на приложенията на OpenAI (GPT Store) и в други каталози:

Спамът е буквално навсякъде. Всеки един съвсем непознат може дори да добави събития в личния ви календар на Apple, Google или Microsoft. Всичко, което трябва да направи, е да знае имейл адреса, свързан с профила ви, ако в настройките ви е активирана опцията „Добавяне на покани от всички“.

Парадоксално е, че дори в уеб сайта на една независима търсачка, която има за цел да изчисти резултатите от търсенето от SEO спама, 99% от посетителите са SEO спам ботове.

Как да се предпазите от този боклук? Няма как. Начинът е прост: вземайте съдържание от надеждни източници. Платени абонаменти, лични блогове.

Между другото, Google наскоро изобрети технология за водни знаци за LLM-текстовете. Идеята се състои в това, че при генерирането на текст LLM избира токени частично въз основа на криптографски ключ. И някой, който знае ключа, може да определи и докаже използването на ключа при генерирането на конкретен текст. Исторически погледнато, поставянето на водни знаци върху текстовете поражда две трудности:

за откриването им е необходимо сравнително голямо количество текст;
водният знак не е много устойчив на редактиране след генерирането му.

Версията на водния знак на Google изглежда добре: той се открива дори в малки текстове от 200 лексеми или по-малко, което е около три-четири абзаца стандартен текст.

Схемата на алгоритъма, наречен SynthID-Text (на снимката по-долу), се състои от три компонента, които са маркирани в синьо: генератор на случайни сидове, алгоритъм за вземане на проби и функция за оценяване. Те се използват при генерирането на текст и откриването на водния знак.

При генерирането на водните знаци при SynthID-Text се използва алгоритъмът за вземане на проби от Tournament, ето как работи той:

Броят на спам текстовете, генерирани от LLM, нараства експоненциално. И наближава денят, когато в интернет ще има повече генериран боклук, отколкото авторско съдържание, написано от хора.

Експериментът върху 20 милиона генерирани текста от невронната мрежа Google Gemini с водни знаци не показа влошаване на качеството на резултатите. Експертите прогнозират, че всички големи разработчици на LLM ще внедрят водни знаци в своята изходна информация.

Непотребните и ненужните реклами ни заобикалят навсякъде в интернет и дори блокерите на реклами като uBlock Origin не винаги ни спасяват. YouTube, например, се опитва да открива подобни блокери и да ги заобикаля, като вгражда „незабранени“ реклами на различни места във видеоклипа. Освен това самата Google се готви да пусне нова версия на браузъра Chromium, в която uBlock Origin вече няма да функционира. Много други браузъри, с изключение на Firefox и Safari, са базирани на енджина Chromium.

Така че може би ще трябва да се върнем към Firefox или Opera за блокиране на реклами, понеже тези браузъри обещават да запазят изцяло функционалността на uBlock Origin.

Телефонните обаждания. И най-умните хора биват измамени

Гласовите комуникации също се задръстват от роботизирани обаждания, спам и измами. Изглежда, че да чуете жив човек по телефона скоро ще бъде голям късмет: вече винаги и навсякъде телефонът се вдига от чатботове с разпознаване на речта и други агенти с изкуствен интелект, които могат да ви прехвърлят към жив оператор, но могат и да не го направят. Казват, че има специални ключови думи (или нецензурни изрази), които могат да ви помогнат да изключите автоматизираната програма и да се свържете по-бързо с жив оператор.

Експертите изчислиха, че през миналата година в САЩ са били направени 55 милиарда роботизирани обаждания до телефоните на гражданите. Това е същият спам, само че по телефона, може би дори интерактивен, с разпознаване на речта и примитивен диалог:

На Федералната търговска комисия на САЩ вече е изпратено предложение за въвеждането на отговорност и ограничаване на роботизираните обаждания без съгласието на получателя. Има идея да се въведе отговорност и за рекламните SMS-и. Освен това САЩ наскоро въведоха задължителна процедура за отписване с едно кликване за всички рекламни съобщения. Това вероятно ще се прилага и за рекламните обаждания, SMS и другите видове спам.

В допълнение към роботизирания спам, традиционното социално инженерство продължава да се използва по телефона, за да се подмамят хората да предоставят лична информация, да получат достъп до сметката си или да бъдат убедени да преведат пари. Популярни са обажданията, представящи се за такива от полицията, а в някои страни – от КГБ. Измамниците използват страха на хората от държавните институции. Те не оставят време на човека да помисли. Основното е бързината, жертвата е принудена да реагира и да действа бързо. Така например в Турция по тази схема работят големи кол центрове с десетки оператори, които подвеждат хиляди европейци. Операциите за източване на пари са в промишлени мащаби.

Проучванията показват, че най-честите жертви на измамниците са млади хора на възраст 34 години. Очевидно, колкото по-умен е един човек, толкова по-лесно е да го измамиш, защото той е по-уверен в собствения си интелект от по-глупавия си събрат, който просто ще окачи слушалката, без да влиза в дискусия с измамника.

За съжаление битката срещу спама далеч не е приключила. Недобросъвестни измамници намират нови начини да заобиколят всяка защита, за да спечелят малко пари от партньорски програми, продажба на ненужни стоки или банални измами.

Жаждата на хората за пари е просто неукротима, така че ще трябва да живеем с този проблем още много години, а може би и винаги – поне докато съществува човешката алчност.

Но ако си поставим конкретни задачи, те могат да бъдат решени поне отчасти. Например, можем ефективно да се борим конкретно срещу спама по електронната поща. Цифрови подписи за домейните, бели списъци с проверени адреси, криптиране на писмата – това е доста надежден набор от технологии, на които можем да разчитаме.

Източник: Kaldata