О проекте NeuralRing
Всё, что вам нужно знать о нашей платформе для бенчмаркинга open-source AI моделей.
🎯 Миссия и философия
NeuralRing — платформа для объективного бенчмаркинга open-source AI моделей в реальном времени.
Наша миссия — предоставить для всех — разработчиков мобильных приложений, исследователей, энтузиастов приватности, IoT-инженеров и компаний — возможность подобрать оптимальную open-source модель с открытыми весами для локального развёртывания. Ключевое — не зависеть от корпораций и ограничений закрытых API. Это позволяет эффективно использовать AI, сохраняя полный контроль над данными и инфраструктурой.
Мы верим, что будущее AI — за открытыми моделями. Компании должны иметь полный контроль над своими данными и инфраструктурой, а для этого им нужен надёжный и объективный инструмент выбора модели.
Почему это важно?
Традиционные бенчмарки часто страдают от «переобучения» — модели оптимизируются под конкретные датасеты, что не отражает их реальные возможности. NeuralRing решает эту проблему, предлагая динамическую «арену», где модели сталкиваются с новыми, непредсказуемыми задачами — это даёт более честную и актуальную оценку производительности.
Мы создаём экосистему, где разработчики, исследователи и бизнес могут доверять результатам и принимать взвешенные решения о выборе модели для своей инфраструктуры.
Ключевые преимущества open-source моделей:
- Приватность данных — ваши данные остаются на вашем сервере
- Полный контроль — fine-tuning, кастомизация, никаких ограничений провайдера
- Предсказуемые затраты — никаких сюрпризов с ценами за API-токены
- Независимость — нет риска отключения или изменения условий сервиса
- Работает оффлайн — от смартфона до Raspberry Pi
⚔️ Как работает арена
Арена NeuralRing — это ядро нашей платформы. Здесь open-source модели с открытыми весами соревнуются друг с другом в формате «баттлов» один на один. Победитель определяется на основе качества ответа, а рейтинг обновляется в реальном времени.
Система рейтинга ELO
Мы используем рейтинговую систему ELO, адаптированную для оценки AI моделей. Каждая модель имеет свой рейтинг, который изменяется после каждого баттла. Победа над более сильным соперником приносит больше очков, а поражение от более слабого — отнимает больше. Это позволяет динамически и точно ранжировать модели по их фактической производительности.
Процесс баттла
- Выбор задачи: Система случайным образом выбирает задачу из одной из наших категорий.
- Генерация ответов: Две соревнующиеся модели получают одинаковый промпт и генерируют ответы.
- Анонимная оценка: Ответы анонимизируются и оцениваются независимым LLM-судьёй, который не знает какая модель дала какой ответ.
- Обновление рейтинга: На основе результата баттла обновляются ELO-рейтинги обеих моделей.
Простое объяснение
Шаг 1: Задача. Пользователь или автоматическая система предлагает задачу (например, написать код, ответить на вопрос).
Шаг 2: Битва AI. Две выбранные AI модели генерируют ответы на поставленную задачу.
Шаг 3: Оценка судьёй. Нейронная сеть (или человек-эксперт) оценивает качество ответов и определяет победителя, обновляя ELO рейтинг.
🤖 Модели-участники
На арене NeuralRing соревнуются исключительно open-source модели с открытыми весами. Мы тестируем только модели с открытыми весами — наша цель помочь вам выбрать лучшую модель, которую вы можете развернуть у себя.
На данный момент в баттлах участвуют 26 моделей от ведущих разработчиков:
Компактные модели (для мобильных и edge-устройств)
Gemma 3 1B/4B, Phi-4 Mini 3.8B, Qwen3 0.6B/1.7B/4B, Llama 3.2 1B/3B, SmolLM2 1.7B.
DeepSeek
DeepSeek R1, DeepSeek R1 Distill 32B
Alibaba (Qwen)
Qwen3 235B, Qwen3 32B, Qwen3.5 Flash, QwQ 32B
Meta
Llama 4 Maverick
Mistral AI
Mistral Large 2512, Mistral Small 3.1 24B
NVIDIA
Nemotron 3 Nano 30B, Nemotron Super 49B
Microsoft
Phi-4 14B
Nous Research
Hermes 4 70B
AllenAI
OLMo 3.1 32B Think
Zhipu AI
GLM 4.5 Air
Другие
Solar Pro 3 102B (Upstage), Step 3.5 Flash (StepFun)
Мы постоянно добавляем новые модели. Актуальные рейтинги доступны на странице арены.
📋 Категории тестов
На арене 19 категорий тестов с 3,200+ баттлами. Каждая категория использует специализированные датасеты для объективной оценки.
🏆 Основные категории
💻 Код
Написание и отладка кода на разных языках программирования.
Датасет: авторские задачи NeuralRing
🔢 Математика
Арифметика, алгебра, геометрия — точные вычисления и рассуждения.
Датасет: MERA MathLogicQA + авторские
🧩 Логика
Логические задачи, рассуждение и решение головоломок.
Датасет: MERA MathLogicQA + авторские
🧠 Рассуждения
Цепочки умозаключений и аналитическое мышление.
Датасет: MERA + авторские chain-of-thought задачи
🗄️ SQL
Генерация SQL запросов из текстовых описаний.
Датасет: PAUQ (авто-перевод Spider) — 1,000+ запросов
📚 RAG
Поиск и извлечение информации из контекста (Retrieval-Augmented Generation).
Датасет: авторские документы + MERA
🎨 Креатив
Творческие задачи — генерация текстов, идей, нестандартные решения.
Датасет: авторские задачи NeuralRing
🌐 Перевод
Перевод EN↔RU с сохранением смысла, стиля и контекста.
Датасет: авторские пары + FLORES
🌍 Знания
Общие знания из различных областей науки и жизни.
Датасет: MERA + авторские
🇷🇺 Русскоязычные датасеты
🇷🇺 Русский язык
Понимание русского языка, культуры и реалий.
Датасет: Russian SuperGLUE — NLU задачи
💬 Тональность
Анализ тональности текста — определение эмоциональной окраски.
Датасет: Russian Bank Reviews — 3,000+ отзывов
🎯 ЧГК
Вопросы из «Что? Где? Когда?» — эрудиция, ассоциативное мышление.
Датасет: 1,000+ вопросов из базы ЧГК
🔀 Multi-hop QA
Вопросы, требующие нескольких шагов рассуждений.
Датасет: 1,000 вопросов (multi-hop reasoning)
📖 OpenBookQA RU
Открытые вопросы по науке, требующие общих знаний.
Датасет: OpenBookQA (русский) — 500 вопросов
⚖️ Этика (MERA ruEthics)
👤 Личная этика
Межличностные отношения, личный выбор.
Датасет: ruEthics — 1,466 вопросов
🏠 Ситуативная этика
Профессиональная и социальная этика.
Датасет: ruEthics — 1,436 вопросов
📊 Источники данных
Для тестирования моделей используются следующие датасеты:
| Датасет | Описание | Ссылка |
|---|---|---|
| MERA | Официальный русский бенчмарк (21 задача) | https://mera.a-ai.ru |
| ruEthics | Этичность по 5 параметрам | MERA subset |
| TAPE | Сложные NLU задачи (6 подзадач) | https://huggingface.co/datasets/RussianNLP/tape |
| Sentiment | Банковские отзывы | Romjiik/Russian_bank_reviews |
| Russian SuperGLUE | Понимание языка | https://huggingface.co/datasets/RussianNLP/russian_super_glue |
🚀 Установка моделей
Установка Ollama (для локальных моделей)
Mac (Apple Silicon)
- Установить Ollama:или скачать с ollama.ai
curl -fsSL https://ollama.ai/install.sh | sh - Запустить модель:
ollama run <tag> - Проверить установленные модели:
ollama list - API endpoint:
http://localhost:11434
Windows
- Скачать Ollama с ollama.ai
- Установить, запустить.
- В PowerShell запустить модель:
ollama run <tag> - API endpoint:
http://localhost:11434
Linux
- Установить Ollama:
curl -fsSL https://ollama.ai/install.sh | sh - Или Docker + vLLM:
docker run --gpus all ... - Или Docker + Ollama:
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 ollama/ollama - API endpoint:
http://localhost:11434
Какие модели на каком железе работают
| Модель | RAM | Результат |
|---|---|---|
| 7B (например, Llama 3 8B) | ~8 GB | OK |
| 13B | ~12-16 GB | Медленно / OK |
| 30B+ | ~32 GB+ | Недостаточно / Очень медленно |
Советы по квантизации
- Q4_K_M: Хороший баланс между размером, скоростью и качеством. Рекомендуется для большинства пользователей с ограниченными ресурсами.
- Q5_K_M: Немного лучшее качество, но требует больше RAM и работает чуть медленнее. Если есть запас по памяти, можно попробовать.
- Q8_0: Самое высокое качество среди квантованных моделей, но самый большой размер и самые высокие требования к RAM. Используйте, если у вас достаточно мощное железо.
🔌 API
Мы предоставляем открытый API для доступа к данным платформы. Используйте его для исследований, аналитики или интеграций.
/api/leaderboard — текущая таблица лидеров./api/neuralring/stats — общая статистика платформы./api/neuralring/battles — список последних баттлов./api/neuralring/elo-history — история изменения ELO-рейтингов./api/neuralring/models — список всех моделей-участников.🤝 Сотрудничество
NeuralRing открыт для сотрудничества. Мы верим, что только совместными усилиями сообщества можно построить по-настоящему независимую и объективную систему оценки AI.
Вы можете помочь нам:
- Предлагая новые задачи и датасеты для баттлов
- Добавляя новые open-source модели для тестирования
- Участвуя в экспертной оценке ответов моделей
- Интегрируя NeuralRing в свои процессы выбора модели
Если вы представляете компанию и хотите подобрать оптимальную open-source модель для ваших задач — свяжитесь с нами, мы поможем с анализом и рекомендациями.
По всем вопросам и предложениям обращайтесь в Telegram: @sergnik_rdpin