DeepSeek V4 en de prijs van intelligentie: een open frontier-model voor 14% van de kosten
Op 24 april 2026 publiceerde DeepSeek V4-Pro: een open-source taalmodel met 1,6 biljoen parameters, een MIT-licentie en een prijs van $3,48 per miljoen output-tokens. Het model scoort 80,6% op SWE-bench Verified, een gangbare benchmark voor softwareontwikkeling. Dat is 0,2 punten lager dan Claude Opus 4.6 van Anthropic, dat $25 per miljoen output-tokens kost.
Op de Codeforces-rating, een index voor competitief programmeren, behaalt V4-Pro 3.206 punten en passeert daarmee GPT-5.4 (3.168 punten). Het is de hoogste score die op het moment van publicatie door enig model is bereikt.
De prijsverhouding is hard. Voor dezelfde technische taak betaalt een afnemer met DeepSeek V4 ongeveer 14% van wat die taak kost via de Amerikaanse referentie. Dat is geen geleidelijke optimalisatie, maar een prijsschok.
Hoe we hier kwamen
Tussen maart 2023 en mei 2026 zakten de input-kosten voor frontier-AI met een factor 12. GPT-4 kostte bij introductie $30 per miljoen input-tokens; GPT-5.4 ligt vandaag op $2,50. Voor GPT-4-equivalente prestaties is de prijs over diezelfde periode gedaald van $20 naar $0,40 per miljoen tokens, een tienvoudige daling per jaar.
Wat er nu gebeurt is een tweede mechanisme: open-source modellen onder permissieve licenties verschijnen op het frontier-niveau, niet op het achterloop-niveau. DeepSeek V4 is geen kopie van een ouder commercieel model. Het is een gelijktijdig alternatief, met vergelijkbare prestaties, beschikbaar onder een MIT-licentie. Iedere overheid, universiteit of mkb-bedrijf kan het zelf hosten, finetunen en draaien zonder royaltystroom naar een Amerikaanse leverancier.
De economie erachter
Twee dingen verschuiven tegelijk. Het eerste is de absolute prijs per inferentie. Bij V4-Pro daalt het aantal FLOPs per token bij vol contextvenster naar 27% van wat de voorganger nodig had, en de KV-cache zakt naar 10%. Dat is geen marketingmaatstaf maar een directe afname van rekenwerk en geheugengebruik per gegenereerd woord.
Het tweede is de hardwareafhankelijkheid. DeepSeek bevestigde dat V4 voor de finale trainingsfase gebruikmaakte van Huawei Ascend 950PR-chips. Voor inferentie wordt het model verspreid op Huawei, Cambricon en Biren naast NVIDIA. Daarmee breekt het de softwarekoppeling met CUDA, het propriëtaire framework dat tot nu toe de feitelijke standaard was.
De rebound-risicos zijn reëel. Goedkopere intelligentie betekent meer gebruik. Als een gemeente honderd keer meer juridische zoekopdrachten draait omdat het 14% van de oude prijs kost, daalt de uitstoot per query, maar stijgt de totale energievraag voor inferentie. Datzelfde Jevons-effect dat bekend is van LED-verlichting en efficiëntere motoren hoort bij dit verhaal.
Wie wint? Iedereen die intelligentie tot nu toe rantsoeneerde omdat het te duur was: publieke diensten, kleine ontwikkelaars, onderwijs. Wie verliest? Frontier-aanbieders die hun marge bouwden op het idee dat hun modellen uniek waren. De marge zat in afsluiting. Dat slot wordt geforceerd.
Implicatie voor de informatie-stack
De informatie-stack draait om de kosten en toegankelijkheid van kennis. Voor expertise was de schaarste tot voor kort echt: een beslissing van een ervaren jurist of een professioneel codereview kostte tijd van een schaars persoon. Wat nu zichtbaar wordt is dat de marginale kosten van een goede eerste analyse, een eerste juridische screening of een eerste codereview naar nul tenderen.
In Nederland loopt parallel het GPT-NL-traject, ondersteund door SURF en TNO, met vier overheidsinstanties als pilot. De inzet daar is dataherkomst en taalkundige passing. DeepSeek V4 verandert het kostenplaatje van die afweging: een eigen model trainen kost veel; een open model finetunen op Nederlandse data is meetbaar goedkoper geworden. Zie de ontwikkelingen-feed voor de bronnen achter de V4-release.
Wat te volgen
Drie indicatoren voor de komende twaalf maanden. Een: de prijs per miljoen tokens voor frontier-prestaties in het Europese aanbod (Mistral, Aleph Alpha, GPT-NL). Zakt die mee onder de $5? Twee: het aandeel publieke instellingen in Nederland dat een open model zelf host in plaats van het via een Amerikaanse API af te nemen. Drie: het verschil tussen training- en inferentiehardware in nieuwe modelreleases. Als training en inferentie loskoppelen, opent dat ruimte voor regionale inferentie-infrastructuur zonder dat elke partij eigen training hoeft te doen.