Use the new flash model

Updated tests
2025-06-12 13:44:09 +04:00
parent 8b8d966d33
commit 79af2654b9
20 changed files with 297 additions and 63 deletions
--- a/config.py
+++ b/config.py
@@ -26,7 +26,7 @@ DEFAULT_MODEL = os.getenv("DEFAULT_MODEL", "auto")
 # Validate DEFAULT_MODEL and set to "auto" if invalid
 # Only include actually supported models from providers
-VALID_MODELS = ["auto", "flash", "pro", "o3", "o3-mini", "gemini-2.0-flash-exp", "gemini-2.5-pro-preview-06-05"]
+VALID_MODELS = ["auto", "flash", "pro", "o3", "o3-mini", "gemini-2.0-flash", "gemini-2.5-pro-preview-06-05"]
 if DEFAULT_MODEL not in VALID_MODELS:
    import logging
@@ -47,7 +47,7 @@ MODEL_CAPABILITIES_DESC = {
    "o3": "Strong reasoning (200K context) - Logical problems, code generation, systematic analysis",
    "o3-mini": "Fast O3 variant (200K context) - Balanced performance/speed, moderate complexity",
    # Full model names also supported
-    "gemini-2.0-flash-exp": "Ultra-fast (1M context) - Quick analysis, simple queries, rapid iterations",
+    "gemini-2.0-flash": "Ultra-fast (1M context) - Quick analysis, simple queries, rapid iterations",
    "gemini-2.5-pro-preview-06-05": "Deep reasoning + thinking mode (1M context) - Complex problems, architecture, deep analysis",
 }
--- a/providers/gemini.py
+++ b/providers/gemini.py
@@ -13,7 +13,7 @@ class GeminiModelProvider(ModelProvider):
    # Model configurations
    SUPPORTED_MODELS = {
-        "gemini-2.0-flash-exp": {
+        "gemini-2.0-flash": {
            "max_tokens": 1_048_576,  # 1M tokens
            "supports_extended_thinking": False,
        },
@@ -22,7 +22,7 @@ class GeminiModelProvider(ModelProvider):
            "supports_extended_thinking": True,
        },
        # Shorthands
-        "flash": "gemini-2.0-flash-exp",
+        "flash": "gemini-2.0-flash",
        "pro": "gemini-2.5-pro-preview-06-05",
    }
--- a/providers/registry.py
+++ b/providers/registry.py
@@ -67,7 +67,7 @@ class ModelProviderRegistry:
        """Get provider instance for a specific model name.
        Args:
-            model_name: Name of the model (e.g., "gemini-2.0-flash-exp", "o3-mini")
+            model_name: Name of the model (e.g., "gemini-2.0-flash", "o3-mini")
        Returns:
            ModelProvider instance that supports this model
@@ -125,6 +125,50 @@ class ModelProviderRegistry:
        return os.getenv(env_var)
    @classmethod
    def get_preferred_fallback_model(cls) -> str:
        """Get the preferred fallback model based on available API keys.
        This method checks which providers have valid API keys and returns
        a sensible default model for auto mode fallback situations.
        Priority order:
        1. OpenAI o3-mini (balanced performance/cost) if OpenAI API key available
        2. Gemini 2.0 Flash (fast and efficient) if Gemini API key available
        3. OpenAI o3 (high performance) if OpenAI API key available
        4. Gemini 2.5 Pro (deep reasoning) if Gemini API key available
        5. Fallback to gemini-2.0-flash (most common case)
        Returns:
            Model name string for fallback use
        """
        # Check provider availability by trying to get instances
        openai_available = cls.get_provider(ProviderType.OPENAI) is not None
        gemini_available = cls.get_provider(ProviderType.GOOGLE) is not None
        # Priority order: prefer balanced models first, then high-performance
        if openai_available:
            return "o3-mini"  # Balanced performance/cost
        elif gemini_available:
            return "gemini-2.0-flash"  # Fast and efficient
        else:
            # No API keys available - return a reasonable default
            # This maintains backward compatibility for tests
            return "gemini-2.0-flash"
    @classmethod
    def get_available_providers_with_keys(cls) -> list[ProviderType]:
        """Get list of provider types that have valid API keys.
        Returns:
            List of ProviderType values for providers with valid API keys
        """
        available = []
        for provider_type in cls._providers:
            if cls.get_provider(provider_type) is not None:
                available.append(provider_type)
        return available
    @classmethod
    def clear_cache(cls) -> None:
        """Clear cached provider instances."""
--- a/simulator_tests/test_model_thinking_config.py
+++ b/simulator_tests/test_model_thinking_config.py
@@ -55,7 +55,7 @@ class TestModelThinkingConfig(BaseSimulatorTest):
                "chat",
                {
                    "prompt": "What is 3 + 3? Give a quick answer.",
-                    "model": "flash",  # Should resolve to gemini-2.0-flash-exp
+                    "model": "flash",  # Should resolve to gemini-2.0-flash
                    "thinking_mode": "high",  # Should be ignored for Flash model
                },
            )
@@ -80,7 +80,7 @@ class TestModelThinkingConfig(BaseSimulatorTest):
            ("pro", "should work with Pro model"),
            ("flash", "should work with Flash model"),
            ("gemini-2.5-pro-preview-06-05", "should work with full Pro model name"),
-            ("gemini-2.0-flash-exp", "should work with full Flash model name"),
+            ("gemini-2.0-flash", "should work with full Flash model name"),
        ]
        success_count = 0
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -23,7 +23,7 @@ if "OPENAI_API_KEY" not in os.environ:
 # Set default model to a specific value for tests to avoid auto mode
 # This prevents all tests from failing due to missing model parameter
-os.environ["DEFAULT_MODEL"] = "gemini-2.0-flash-exp"
+os.environ["DEFAULT_MODEL"] = "gemini-2.0-flash"
 # Force reload of config module to pick up the env var
 import importlib
--- a/tests/mock_helpers.py
+++ b/tests/mock_helpers.py
@@ -5,7 +5,7 @@ from unittest.mock import Mock
 from providers.base import ModelCapabilities, ProviderType, RangeTemperatureConstraint
-def create_mock_provider(model_name="gemini-2.0-flash-exp", max_tokens=1_048_576):
+def create_mock_provider(model_name="gemini-2.0-flash", max_tokens=1_048_576):
    """Create a properly configured mock provider."""
    mock_provider = Mock()
--- a/tests/test_claude_continuation.py
+++ b/tests/test_claude_continuation.py
@@ -72,7 +72,7 @@ class TestClaudeContinuationOffers:
            mock_provider.generate_content.return_value = Mock(
                content="Analysis complete.",
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
@@ -129,7 +129,7 @@ class TestClaudeContinuationOffers:
            mock_provider.generate_content.return_value = Mock(
                content="Continued analysis.",
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
@@ -162,7 +162,7 @@ class TestClaudeContinuationOffers:
            mock_provider.generate_content.return_value = Mock(
                content="Analysis complete. The code looks good.",
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
@@ -208,7 +208,7 @@ I'd be happy to examine the error handling patterns in more detail if that would
            mock_provider.generate_content.return_value = Mock(
                content=content_with_followup,
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
@@ -253,7 +253,7 @@ I'd be happy to examine the error handling patterns in more detail if that would
            mock_provider.generate_content.return_value = Mock(
                content="Continued analysis complete.",
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
@@ -309,7 +309,7 @@ I'd be happy to examine the error handling patterns in more detail if that would
            mock_provider.generate_content.return_value = Mock(
                content="Final response.",
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
@@ -358,7 +358,7 @@ class TestContinuationIntegration:
            mock_provider.generate_content.return_value = Mock(
                content="Analysis result",
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
@@ -411,7 +411,7 @@ class TestContinuationIntegration:
            mock_provider.generate_content.return_value = Mock(
                content="Structure analysis done.",
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
@@ -448,7 +448,7 @@ class TestContinuationIntegration:
            mock_provider.generate_content.return_value = Mock(
                content="Performance analysis done.",
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
--- a/tests/test_collaboration.py
+++ b/tests/test_collaboration.py
@@ -41,7 +41,7 @@ class TestDynamicContextRequests:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = False
        mock_provider.generate_content.return_value = Mock(
-            content=clarification_json, usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content=clarification_json, usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
@@ -82,7 +82,7 @@ class TestDynamicContextRequests:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = False
        mock_provider.generate_content.return_value = Mock(
-            content=normal_response, usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content=normal_response, usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
@@ -106,7 +106,7 @@ class TestDynamicContextRequests:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = False
        mock_provider.generate_content.return_value = Mock(
-            content=malformed_json, usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content=malformed_json, usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
@@ -146,7 +146,7 @@ class TestDynamicContextRequests:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = False
        mock_provider.generate_content.return_value = Mock(
-            content=clarification_json, usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content=clarification_json, usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
@@ -233,7 +233,7 @@ class TestCollaborationWorkflow:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = False
        mock_provider.generate_content.return_value = Mock(
-            content=clarification_json, usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content=clarification_json, usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
@@ -272,7 +272,7 @@ class TestCollaborationWorkflow:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = False
        mock_provider.generate_content.return_value = Mock(
-            content=clarification_json, usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content=clarification_json, usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
@@ -299,7 +299,7 @@ class TestCollaborationWorkflow:
        """
        mock_provider.generate_content.return_value = Mock(
-            content=final_response, usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content=final_response, usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        result2 = await tool.execute(
--- a/tests/test_config.py
+++ b/tests/test_config.py
@@ -32,7 +32,7 @@ class TestConfig:
    def test_model_config(self):
        """Test model configuration"""
        # DEFAULT_MODEL is set in conftest.py for tests
-        assert DEFAULT_MODEL == "gemini-2.0-flash-exp"
+        assert DEFAULT_MODEL == "gemini-2.0-flash"
        assert MAX_CONTEXT_TOKENS == 1_000_000
    def test_temperature_defaults(self):
--- a/tests/test_conversation_field_mapping.py
+++ b/tests/test_conversation_field_mapping.py
@@ -74,7 +74,7 @@ async def test_conversation_history_field_mapping():
                        mock_provider = MagicMock()
                        mock_provider.get_capabilities.return_value = ModelCapabilities(
                            provider=ProviderType.GOOGLE,
-                            model_name="gemini-2.0-flash-exp",
+                            model_name="gemini-2.0-flash",
                            friendly_name="Gemini",
                            max_tokens=200000,
                            supports_extended_thinking=True,
--- a/tests/test_conversation_history_bug.py
+++ b/tests/test_conversation_history_bug.py
@@ -115,7 +115,7 @@ class TestConversationHistoryBugFix:
                return Mock(
                    content="Response with conversation context",
                    usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                    model_name="gemini-2.0-flash-exp",
+                    model_name="gemini-2.0-flash",
                    metadata={"finish_reason": "STOP"},
                )
@@ -175,7 +175,7 @@ class TestConversationHistoryBugFix:
                return Mock(
                    content="Response without history",
                    usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                    model_name="gemini-2.0-flash-exp",
+                    model_name="gemini-2.0-flash",
                    metadata={"finish_reason": "STOP"},
                )
@@ -213,7 +213,7 @@ class TestConversationHistoryBugFix:
                return Mock(
                    content="New conversation response",
                    usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                    model_name="gemini-2.0-flash-exp",
+                    model_name="gemini-2.0-flash",
                    metadata={"finish_reason": "STOP"},
                )
@@ -297,7 +297,7 @@ class TestConversationHistoryBugFix:
                return Mock(
                    content="Analysis of new files complete",
                    usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                    model_name="gemini-2.0-flash-exp",
+                    model_name="gemini-2.0-flash",
                    metadata={"finish_reason": "STOP"},
                )
--- a/tests/test_cross_tool_continuation.py
+++ b/tests/test_cross_tool_continuation.py
@@ -111,7 +111,7 @@ I'd be happy to review these security findings in detail if that would be helpfu
            mock_provider.generate_content.return_value = Mock(
                content=content,
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
@@ -158,7 +158,7 @@ I'd be happy to review these security findings in detail if that would be helpfu
            mock_provider.generate_content.return_value = Mock(
                content="Critical security vulnerability confirmed. The authentication function always returns true, bypassing all security checks.",
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
@@ -279,7 +279,7 @@ I'd be happy to review these security findings in detail if that would be helpfu
            mock_provider.generate_content.return_value = Mock(
                content="Security review of auth.py shows vulnerabilities",
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
--- a/tests/test_intelligent_fallback.py
+++ b/tests/test_intelligent_fallback.py
@@ -0,0 +1,181 @@
 """
 Test suite for intelligent auto mode fallback logic
 Tests the new dynamic model selection based on available API keys
 """
 import os
 from unittest.mock import Mock, patch
 import pytest
 from providers.base import ProviderType
 from providers.registry import ModelProviderRegistry
 class TestIntelligentFallback:
    """Test intelligent model fallback logic"""
    def setup_method(self):
        """Setup for each test - clear registry cache"""
        ModelProviderRegistry.clear_cache()
    def teardown_method(self):
        """Cleanup after each test"""
        ModelProviderRegistry.clear_cache()
    @patch.dict(os.environ, {"OPENAI_API_KEY": "sk-test-key", "GEMINI_API_KEY": ""}, clear=False)
    def test_prefers_openai_o3_mini_when_available(self):
        """Test that o3-mini is preferred when OpenAI API key is available"""
        ModelProviderRegistry.clear_cache()
        fallback_model = ModelProviderRegistry.get_preferred_fallback_model()
        assert fallback_model == "o3-mini"
    @patch.dict(os.environ, {"OPENAI_API_KEY": "", "GEMINI_API_KEY": "test-gemini-key"}, clear=False)
    def test_prefers_gemini_flash_when_openai_unavailable(self):
        """Test that gemini-2.0-flash is used when only Gemini API key is available"""
        ModelProviderRegistry.clear_cache()
        fallback_model = ModelProviderRegistry.get_preferred_fallback_model()
        assert fallback_model == "gemini-2.0-flash"
    @patch.dict(os.environ, {"OPENAI_API_KEY": "sk-test-key", "GEMINI_API_KEY": "test-gemini-key"}, clear=False)
    def test_prefers_openai_when_both_available(self):
        """Test that OpenAI is preferred when both API keys are available"""
        ModelProviderRegistry.clear_cache()
        fallback_model = ModelProviderRegistry.get_preferred_fallback_model()
        assert fallback_model == "o3-mini"  # OpenAI has priority
    @patch.dict(os.environ, {"OPENAI_API_KEY": "", "GEMINI_API_KEY": ""}, clear=False)
    def test_fallback_when_no_keys_available(self):
        """Test fallback behavior when no API keys are available"""
        ModelProviderRegistry.clear_cache()
        fallback_model = ModelProviderRegistry.get_preferred_fallback_model()
        assert fallback_model == "gemini-2.0-flash"  # Default fallback
    def test_available_providers_with_keys(self):
        """Test the get_available_providers_with_keys method"""
        with patch.dict(os.environ, {"OPENAI_API_KEY": "sk-test-key", "GEMINI_API_KEY": ""}, clear=False):
            ModelProviderRegistry.clear_cache()
            available = ModelProviderRegistry.get_available_providers_with_keys()
            assert ProviderType.OPENAI in available
            assert ProviderType.GOOGLE not in available
        with patch.dict(os.environ, {"OPENAI_API_KEY": "", "GEMINI_API_KEY": "test-key"}, clear=False):
            ModelProviderRegistry.clear_cache()
            available = ModelProviderRegistry.get_available_providers_with_keys()
            assert ProviderType.GOOGLE in available
            assert ProviderType.OPENAI not in available
    def test_auto_mode_conversation_memory_integration(self):
        """Test that conversation memory uses intelligent fallback in auto mode"""
        from utils.conversation_memory import ThreadContext, build_conversation_history
        # Mock auto mode - patch the config module where these values are defined
        with (
            patch("config.IS_AUTO_MODE", True),
            patch("config.DEFAULT_MODEL", "auto"),
            patch.dict(os.environ, {"OPENAI_API_KEY": "sk-test-key", "GEMINI_API_KEY": ""}, clear=False),
        ):
            ModelProviderRegistry.clear_cache()
            # Create a context with at least one turn so it doesn't exit early
            from utils.conversation_memory import ConversationTurn
            context = ThreadContext(
                thread_id="test-123",
                created_at="2023-01-01T00:00:00Z",
                last_updated_at="2023-01-01T00:00:00Z",
                tool_name="chat",
                turns=[ConversationTurn(role="user", content="Test message", timestamp="2023-01-01T00:00:30Z")],
                initial_context={},
            )
            # This should use o3-mini for token calculations since OpenAI is available
            with patch("utils.model_context.ModelContext") as mock_context_class:
                mock_context_instance = Mock()
                mock_context_class.return_value = mock_context_instance
                mock_context_instance.calculate_token_allocation.return_value = Mock(
                    file_tokens=10000, history_tokens=5000
                )
                # Mock estimate_tokens to return integers for proper summing
                mock_context_instance.estimate_tokens.return_value = 100
                history, tokens = build_conversation_history(context, model_context=None)
                # Verify that ModelContext was called with o3-mini (the intelligent fallback)
                mock_context_class.assert_called_once_with("o3-mini")
    def test_auto_mode_with_gemini_only(self):
        """Test auto mode behavior when only Gemini API key is available"""
        from utils.conversation_memory import ThreadContext, build_conversation_history
        with (
            patch("config.IS_AUTO_MODE", True),
            patch("config.DEFAULT_MODEL", "auto"),
            patch.dict(os.environ, {"OPENAI_API_KEY": "", "GEMINI_API_KEY": "test-key"}, clear=False),
        ):
            ModelProviderRegistry.clear_cache()
            from utils.conversation_memory import ConversationTurn
            context = ThreadContext(
                thread_id="test-456",
                created_at="2023-01-01T00:00:00Z",
                last_updated_at="2023-01-01T00:00:00Z",
                tool_name="analyze",
                turns=[ConversationTurn(role="assistant", content="Test response", timestamp="2023-01-01T00:00:30Z")],
                initial_context={},
            )
            with patch("utils.model_context.ModelContext") as mock_context_class:
                mock_context_instance = Mock()
                mock_context_class.return_value = mock_context_instance
                mock_context_instance.calculate_token_allocation.return_value = Mock(
                    file_tokens=10000, history_tokens=5000
                )
                # Mock estimate_tokens to return integers for proper summing
                mock_context_instance.estimate_tokens.return_value = 100
                history, tokens = build_conversation_history(context, model_context=None)
                # Should use gemini-2.0-flash when only Gemini is available
                mock_context_class.assert_called_once_with("gemini-2.0-flash")
    def test_non_auto_mode_unchanged(self):
        """Test that non-auto mode behavior is unchanged"""
        from utils.conversation_memory import ThreadContext, build_conversation_history
        with patch("config.IS_AUTO_MODE", False), patch("config.DEFAULT_MODEL", "gemini-2.5-pro-preview-06-05"):
            from utils.conversation_memory import ConversationTurn
            context = ThreadContext(
                thread_id="test-789",
                created_at="2023-01-01T00:00:00Z",
                last_updated_at="2023-01-01T00:00:00Z",
                tool_name="thinkdeep",
                turns=[
                    ConversationTurn(role="user", content="Test in non-auto mode", timestamp="2023-01-01T00:00:30Z")
                ],
                initial_context={},
            )
            with patch("utils.model_context.ModelContext") as mock_context_class:
                mock_context_instance = Mock()
                mock_context_class.return_value = mock_context_instance
                mock_context_instance.calculate_token_allocation.return_value = Mock(
                    file_tokens=10000, history_tokens=5000
                )
                # Mock estimate_tokens to return integers for proper summing
                mock_context_instance.estimate_tokens.return_value = 100
                history, tokens = build_conversation_history(context, model_context=None)
                # Should use the configured DEFAULT_MODEL, not the intelligent fallback
                mock_context_class.assert_called_once_with("gemini-2.5-pro-preview-06-05")
 if __name__ == "__main__":
    pytest.main([__file__])
--- a/tests/test_large_prompt_handling.py
+++ b/tests/test_large_prompt_handling.py
@@ -75,7 +75,7 @@ class TestLargePromptHandling:
            mock_provider.generate_content.return_value = MagicMock(
                content="This is a test response",
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
@@ -100,7 +100,7 @@ class TestLargePromptHandling:
            mock_provider.generate_content.return_value = MagicMock(
                content="Processed large prompt",
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
@@ -212,7 +212,7 @@ class TestLargePromptHandling:
            mock_provider.generate_content.return_value = MagicMock(
                content="Success",
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
@@ -245,7 +245,7 @@ class TestLargePromptHandling:
            mock_provider.generate_content.return_value = MagicMock(
                content="Success",
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
@@ -276,7 +276,7 @@ class TestLargePromptHandling:
            mock_provider.generate_content.return_value = MagicMock(
                content="Success",
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
@@ -298,7 +298,7 @@ class TestLargePromptHandling:
            mock_provider.generate_content.return_value = MagicMock(
                content="Success",
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
            mock_get_provider.return_value = mock_provider
--- a/tests/test_prompt_regression.py
+++ b/tests/test_prompt_regression.py
@@ -31,7 +31,7 @@ class TestPromptRegression:
            return Mock(
                content=text,
                usage={"input_tokens": 10, "output_tokens": 20, "total_tokens": 30},
-                model_name="gemini-2.0-flash-exp",
+                model_name="gemini-2.0-flash",
                metadata={"finish_reason": "STOP"},
            )
--- a/tests/test_providers.py
+++ b/tests/test_providers.py
@@ -49,7 +49,7 @@ class TestModelProviderRegistry:
        """Test getting provider for a specific model"""
        ModelProviderRegistry.register_provider(ProviderType.GOOGLE, GeminiModelProvider)
-        provider = ModelProviderRegistry.get_provider_for_model("gemini-2.0-flash-exp")
+        provider = ModelProviderRegistry.get_provider_for_model("gemini-2.0-flash")
        assert provider is not None
        assert isinstance(provider, GeminiModelProvider)
@@ -80,10 +80,10 @@ class TestGeminiProvider:
        """Test getting model capabilities"""
        provider = GeminiModelProvider(api_key="test-key")
-        capabilities = provider.get_capabilities("gemini-2.0-flash-exp")
+        capabilities = provider.get_capabilities("gemini-2.0-flash")
        assert capabilities.provider == ProviderType.GOOGLE
-        assert capabilities.model_name == "gemini-2.0-flash-exp"
+        assert capabilities.model_name == "gemini-2.0-flash"
        assert capabilities.max_tokens == 1_048_576
        assert not capabilities.supports_extended_thinking
@@ -103,13 +103,13 @@ class TestGeminiProvider:
        assert provider.validate_model_name("pro")
        capabilities = provider.get_capabilities("flash")
-        assert capabilities.model_name == "gemini-2.0-flash-exp"
+        assert capabilities.model_name == "gemini-2.0-flash"
    def test_supports_thinking_mode(self):
        """Test thinking mode support detection"""
        provider = GeminiModelProvider(api_key="test-key")
-        assert not provider.supports_thinking_mode("gemini-2.0-flash-exp")
+        assert not provider.supports_thinking_mode("gemini-2.0-flash")
        assert provider.supports_thinking_mode("gemini-2.5-pro-preview-06-05")
    @patch("google.genai.Client")
@@ -133,11 +133,11 @@ class TestGeminiProvider:
        provider = GeminiModelProvider(api_key="test-key")
-        response = provider.generate_content(prompt="Test prompt", model_name="gemini-2.0-flash-exp", temperature=0.7)
+        response = provider.generate_content(prompt="Test prompt", model_name="gemini-2.0-flash", temperature=0.7)
        assert isinstance(response, ModelResponse)
        assert response.content == "Generated content"
-        assert response.model_name == "gemini-2.0-flash-exp"
+        assert response.model_name == "gemini-2.0-flash"
        assert response.provider == ProviderType.GOOGLE
        assert response.usage["input_tokens"] == 10
        assert response.usage["output_tokens"] == 20
--- a/tests/test_server.py
+++ b/tests/test_server.py
@@ -56,7 +56,7 @@ class TestServerTools:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = False
        mock_provider.generate_content.return_value = Mock(
-            content="Chat response", usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content="Chat response", usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
--- a/tests/test_thinking_modes.py
+++ b/tests/test_thinking_modes.py
@@ -45,7 +45,7 @@ class TestThinkingModes:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = True
        mock_provider.generate_content.return_value = Mock(
-            content="Minimal thinking response", usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content="Minimal thinking response", usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
@@ -82,7 +82,7 @@ class TestThinkingModes:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = True
        mock_provider.generate_content.return_value = Mock(
-            content="Low thinking response", usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content="Low thinking response", usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
@@ -114,7 +114,7 @@ class TestThinkingModes:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = True
        mock_provider.generate_content.return_value = Mock(
-            content="Medium thinking response", usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content="Medium thinking response", usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
@@ -145,7 +145,7 @@ class TestThinkingModes:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = True
        mock_provider.generate_content.return_value = Mock(
-            content="High thinking response", usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content="High thinking response", usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
@@ -175,7 +175,7 @@ class TestThinkingModes:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = True
        mock_provider.generate_content.return_value = Mock(
-            content="Max thinking response", usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content="Max thinking response", usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
--- a/tests/test_tools.py
+++ b/tests/test_tools.py
@@ -37,7 +37,7 @@ class TestThinkDeepTool:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = True
        mock_provider.generate_content.return_value = Mock(
-            content="Extended analysis", usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content="Extended analysis", usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
@@ -88,7 +88,7 @@ class TestCodeReviewTool:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = False
        mock_provider.generate_content.return_value = Mock(
-            content="Security issues found", usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content="Security issues found", usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
@@ -133,7 +133,7 @@ class TestDebugIssueTool:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = False
        mock_provider.generate_content.return_value = Mock(
-            content="Root cause: race condition", usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content="Root cause: race condition", usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
@@ -181,7 +181,7 @@ class TestAnalyzeTool:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = False
        mock_provider.generate_content.return_value = Mock(
-            content="Architecture analysis", usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content="Architecture analysis", usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
@@ -295,7 +295,7 @@ class TestAbsolutePathValidation:
        mock_provider.get_provider_type.return_value = Mock(value="google")
        mock_provider.supports_thinking_mode.return_value = False
        mock_provider.generate_content.return_value = Mock(
-            content="Analysis complete", usage={}, model_name="gemini-2.0-flash-exp", metadata={}
+            content="Analysis complete", usage={}, model_name="gemini-2.0-flash", metadata={}
        )
        mock_get_provider.return_value = mock_provider
--- a/utils/conversation_memory.py
+++ b/utils/conversation_memory.py
@@ -74,7 +74,7 @@ class ConversationTurn(BaseModel):
        files: List of file paths referenced in this specific turn
        tool_name: Which tool generated this turn (for cross-tool tracking)
        model_provider: Provider used (e.g., "google", "openai")
-        model_name: Specific model used (e.g., "gemini-2.0-flash-exp", "o3-mini")
+        model_name: Specific model used (e.g., "gemini-2.0-flash", "o3-mini")
        model_metadata: Additional model-specific metadata (e.g., thinking mode, token usage)
    """
@@ -249,7 +249,7 @@ def add_turn(
        files: Optional list of files referenced in this turn
        tool_name: Name of the tool adding this turn (for attribution)
        model_provider: Provider used (e.g., "google", "openai")
-        model_name: Specific model used (e.g., "gemini-2.0-flash-exp", "o3-mini")
+        model_name: Specific model used (e.g., "gemini-2.0-flash", "o3-mini")
        model_metadata: Additional model info (e.g., thinking mode, token usage)
    Returns:
@@ -454,10 +454,19 @@ def build_conversation_history(context: ThreadContext, model_context=None, read_
    # Get model-specific token allocation early (needed for both files and turns)
    if model_context is None:
-        from config import DEFAULT_MODEL
+        from config import DEFAULT_MODEL, IS_AUTO_MODE
        from utils.model_context import ModelContext
-        model_context = ModelContext(DEFAULT_MODEL)
+        # In auto mode, use an intelligent fallback model for token calculations
        # since "auto" is not a real model with a provider
        model_name = DEFAULT_MODEL
        if IS_AUTO_MODE and model_name.lower() == "auto":
            # Use intelligent fallback based on available API keys
            from providers.registry import ModelProviderRegistry
            model_name = ModelProviderRegistry.get_preferred_fallback_model()
        model_context = ModelContext(model_name)
    token_allocation = model_context.calculate_token_allocation()
    max_file_tokens = token_allocation.file_tokens