feat(observer): track LLM token usage in execution summary

Test · Test · commit 0a9f9892daaf · 2026-01-07T20:41:08.000-03:00
Added TokenUsage struct to ChatResponse and populated from API response.
Editor now emits LLMRequestEvent with timing and token counts.

Summary now shows:
  LLM USAGE
  ----------------------------------------
    API Calls:          2
    Tokens In:          3.3K
    Tokens Out:         290
    Total Tokens:       3.6K
    Est. Cost:          $0.0036

Changes:
- llm/provider.go: Added TokenUsage struct to ChatResponse
- llm/chat_completion.go: Parse usage from API response
- agents/editor.go: Emit LLMRequestEvent after each Chat call
diff --git a/internal/agents/editor.go b/internal/agents/editor.go
@@ -6,6 +6,7 @@ import (
 	"fmt"
 	"os"
 	"strings"
+	"time"
 
 	"gptcode/internal/llm"
 	"gptcode/internal/observability"
@@ -254,16 +255,29 @@ func (e *EditorAgent) Execute(ctx context.Context, history []llm.ChatMessage, st
 	// Set to 10 to allow complex tasks: 3-4 discovery calls + 2-3 reads + 2-3 writes
 	maxToolChainDepth := 10
 	for iteration := 0; iteration < maxToolChainDepth; iteration++ {
+		llmStart := time.Now()
 		resp, err := e.provider.Chat(ctx, llm.ChatRequest{
 			SystemPrompt: editorPrompt,
 			Messages:     messages,
 			Tools:        toolDefs,
 			Model:        e.model,
 		})
+		llmDuration := time.Since(llmStart)
 		if err != nil {
 			return "", nil, err
 		}
 
+		// Emit LLM request event to observer
+		if e.observer != nil && resp.TokenUsage != nil {
+			e.observer.Emit(&observability.LLMRequestEvent{
+				BaseEvent: observability.BaseEvent{Time: time.Now()},
+				Model:     e.model,
+				TokensIn:  resp.TokenUsage.PromptTokens,
+				TokensOut: resp.TokenUsage.CompletionTokens,
+				Duration:  llmDuration,
+			})
+		}
+
 		if os.Getenv("GPTCODE_DEBUG") == "1" {
 			fmt.Fprintf(os.Stderr, "[EDITOR] Response text length: %d\n", len(resp.Text))
 			fmt.Fprintf(os.Stderr, "[EDITOR] Tool calls: %d\n", len(resp.ToolCalls))
diff --git a/internal/llm/chat_completion.go b/internal/llm/chat_completion.go
@@ -113,6 +113,11 @@ type chatCompletionResponse struct {
 			ToolCalls []ToolCall `json:"tool_calls"`
 		} `json:"message"`
 	} `json:"choices"`
+	Usage *struct {
+		PromptTokens     int `json:"prompt_tokens"`
+		CompletionTokens int `json:"completion_tokens"`
+		TotalTokens      int `json:"total_tokens"`
+	} `json:"usage"`
 	Error *struct {
 		Message string `json:"message"`
 	} `json:"error"`
@@ -363,5 +368,14 @@ func (c *ChatCompletionProvider) Chat(ctx context.Context, req ChatRequest) (*Ch
 		}
 	}
 
+	// Populate token usage if available
+	if apiResp.Usage != nil {
+		response.TokenUsage = &TokenUsage{
+			PromptTokens:     apiResp.Usage.PromptTokens,
+			CompletionTokens: apiResp.Usage.CompletionTokens,
+			TotalTokens:      apiResp.Usage.TotalTokens,
+		}
+	}
+
 	return response, nil
 }
diff --git a/internal/llm/provider.go b/internal/llm/provider.go
@@ -24,8 +24,15 @@ type ChatMessage struct {
 }
 
 type ChatResponse struct {
-	Text      string
-	ToolCalls []ChatToolCall
+	Text       string
+	ToolCalls  []ChatToolCall
+	TokenUsage *TokenUsage
+}
+
+type TokenUsage struct {
+	PromptTokens     int
+	CompletionTokens int
+	TotalTokens      int
 }
 
 type ChatToolCall struct {