← Alla artiklar Tekniskt

Agentisk kodgranskning: AI:n hittar felen. Du äger fortfarande mergen.

Agentisk kodgranskning: AI:n hittar felen. Du äger fortfarande mergen.

Agentisk kodgranskning: AI:n hittar felen. Du äger fortfarande mergen.

Anthropics Code Review kör en flotta av agenter mot varje pull request parallellt. Varje agent letar efter en specifik klass av buggar. Ett verifieringssteg filtrerar bort false positives innan något når ingenjören. Findings postas som inline-kommentarer på exakt de rader där problemen hittades.

Siffrorna från Anthropics interna utrullning:

  • 54% av PRs får nu findings, upp från 16% med tidigare metoder
  • Stora PRs har i genomsnitt 7,5 verkliga problem identifierade
  • Mindre än 1% av findings markeras som felaktiga av ingenjörerna

Det är ett anmärkningsvärt signal-brus-förhållande för ett automatiserat system. De flesta automatiserade granskningsverktyg överges för att false positive-frekvensen är för hög för att lita på. Mindre än 1% fel är en annan kategori av verktyg.

Vad det faktiskt gör

Det här är ett agentiskt mönster i praktiken: parallell specialisering, sedan konsolidering. Varje agent jagar en klass av problem — säkerhet, logikfel, typfel, edge cases, vad du än konfigurerar. De kör simultant. Resultaten slås samman. Ett verifieringslager filtrerar vad som överlever innan det når ingenjören.

Ett konkret exempel från Anthropics utrullning: en utvecklare gjorde en liten kodändring som tyst hade brutit autentisering. Agenterna fångade det innan merge. Liten ändring, allvarlig konsekvens — exakt den kategori som glider igenom för att den är för subtil för att flagga vid en snabb mänsklig genomläsning.

Granskningen tar ungefär 20 minuter. Kostnaden är 15–25 dollar per PR beroende på storlek. Tillgänglig för tillfället som research preview.

REVIEW.md-filen

Du styr vad som flaggas via en REVIEW.md-fil i ditt repo. Definiera vad som alltid ska kontrolleras. Vad som ska hoppas över. Vilka konventioner som spelar roll i just den här kodbasen.

Det här är ingen konfigurationsdetalj. Det är den strukturerade överlämningen mellan mänskligt omdöme och agentexekvering.

Din ackumulerade kunskap om kodbasen — vad som spelar roll, vad som inte gör det, vad teamet redan har beslutat och varför — blir maskinläsbar instruktion. Agenterna arbetar inom den ram du sätter. De uppfinner inga standarder. De tillämpar dina.

Utan den filen delegerar du utan en brief. Med den orkestrerar du.

REVIEW.md är platsen där erfarenhet går från tyst till explicit. Att skriva den bra är en färdighet — samma färdighet som gör en bra kodgranskningschecklista, en bra runbook eller ett bra architecture decision record. Kvaliteten på agenternas output begränsas av kvaliteten på den ram du ger dem.

Vad som inte förändras

Agenterna hittar problem. Ingenjörer avgör vad de ska göra med dem. Det ansvaret överförs inte till verktyget.

Det är samma princip som gäller för all AI-assisterad utveckling. Mer täckning innebär inte mindre ägarskap. Det innebär att ribban för vad du missade är högre — för att systemet redan har fångat det som det var konfigurerat att fånga.

54% av PRs får findings. Någon måste ändå läsa de findings, förstå dem i kontext och avgöra om de representerar en verklig risk. Det kräver domänkunskap. Det kräver samma omdöme som gjorde en bra kodgranskare innan agenter existerade.

Ytan för vad du är ansvarig för förändras. Ansvaret i sig gör det inte.

Mönstret värt att förstå

Oavsett om du antar just det här verktyget är arkitekturen värd att studera:

  • Parallella agenter, varje specialiserad på en uppgiftsklass
  • Ett verifieringssteg för att filtrera brus innan det når människor
  • Mänskligt läsbar output vid exakt den punkt där beslut fattas
  • En konfigurationsfil där mänskligt omdöme kodas in i förväg

Så här bör agentiska system se ut när de tillämpas på arbetsflöden med verkliga konsekvenser. Agenterna förstärker granskningen, de ersätter den inte. REVIEW.md är briefen. Agenterna exekverar. Ingenjören signerar.

Autentiseringsbugg hade shippen. Den gjorde det inte. Det är poängen — och gränsen.


Källa: Claude Code Review-dokumentation