Backprop доказва: не всичко ново е най-доброто.
Естонският стартъп Backprop, специализиран в облачните GPU услуги, е провел неочаквано проучване. Компанията е установила, че не е необходимо да се използват скъпи сървърни графични процесори за обслужване на големите езикови модели (LLM). Оказа се, че потребителската графична карта NVIDIA RTX 3090, която тази година навърши 4 години, може да се справи с тази задача.
Специалистите от Backprop демонстрираха как една такава карта може да се справи с повече от 100 едновременни заявки към Llama 3.1 8B с точност FP16, като същевременно поддържа приемлива ефективност. Като се има предвид, че само малка част от хората правят едновременни заявки, компанията твърди, че една RTX 3090 е в състояние да обслужва хиляди крайни потребители.
RTX 3090, която излезе на пазара в края на 2020 г., има впечатляваща производителност при LLM. Тя предлага 142 терафлопа производителност в FP16 и осигурява пропускателна способност на паметта от 936 GB/s.
Кристо Оясаар, съосновател на Backprop, отбеляза: за да се получи еквивалентна производителност в терафлопи на сървърен хардуер, ще са необходими значително по-скъпи инструменти. Въпреки това RTX 3090 има ограничение от 24 GB GDDR6x памет, което не позволява работата на по- големите модели като Llama 3 70B или Mistral Large, дори когато са квантувани до 4 или 8 бита.
Тестовете са проведени с помощта на популярния фреймуърк vLLM, широко използван за работа с LLM на множество графични процесори. В бенчмарк, симулиращ 100 едновременни потребители, картата успява да обслужва модела със скорост от 12,88 токена в секунда за всеки компютър. Това е по-бързо от средната скорост на човешкото четене (около пет думи в секунда) и надвишава минималната приемлива скорост на генериране за чатботове с изкуствен интелект (10 токена в секунда).
Заслужава да се отбележи, че тестовете на Backprop са проведени със сравнително кратки заявки и максимален изход от само 100 токена. Това означава, че резултатите са по-скоро в съответствие с производителността, очаквана от чатбот за обслужване на клиенти, отколкото от приложение за обобщаване на текст.
При по-нататъшни тестове с използване на флага –use_long_context в пакета от бенчмаркове vLLM и със заявки с дължина 200-300 лексеми RTX 3090 все още постига приемлива скорост на генериране от около 11 лексеми в секунда.
Изследванията на Backprop показват колко е важно да се анализира производителността и да се избират правилните ресурси за конкретната задача. Оджасар отбелязва: Маркетинговите стратегии на големите доставчици на облачни услуги често създават впечатление, че за мащабирането са необходими управлявани услуги или инвестиции в специфични технологии, но се оказва, че това не винаги е така.
За потребителите, които трябва да мащабират до по-големи модели, по-висока пропускателна способност или размери на партидите, Backprop планира да използва PCIe картите A100 с 40 GB HBM2e памет. Въпреки че те също не са най-новите, възможността да се използва технологията multi-instance-GPU за разделяне на един ускорител на няколко виртуални устройства представя възможност за допълнително намаляване на разходите за ентусиасти и експериментатори.
Ако се чудите как би се справила вашата стара геймърска видеокарта на подобен тест, можете да намерите бенчмарка vLLM на Backprop в публичното пространство и да направите собствено проучване.
Leave a Reply