О проекте NeuralRing

Всё, что вам нужно знать о нашей платформе для бенчмаркинга open-source AI моделей.

🎯 Миссия и философия

NeuralRing — платформа для объективного бенчмаркинга open-source AI моделей в реальном времени.

Наша миссия — предоставить для всех — разработчиков мобильных приложений, исследователей, энтузиастов приватности, IoT-инженеров и компаний — возможность подобрать оптимальную open-source модель с открытыми весами для локального развёртывания. Ключевое — не зависеть от корпораций и ограничений закрытых API. Это позволяет эффективно использовать AI, сохраняя полный контроль над данными и инфраструктурой.

Мы верим, что будущее AI — за открытыми моделями. Компании должны иметь полный контроль над своими данными и инфраструктурой, а для этого им нужен надёжный и объективный инструмент выбора модели.

Почему это важно?

Традиционные бенчмарки часто страдают от «переобучения» — модели оптимизируются под конкретные датасеты, что не отражает их реальные возможности. NeuralRing решает эту проблему, предлагая динамическую «арену», где модели сталкиваются с новыми, непредсказуемыми задачами — это даёт более честную и актуальную оценку производительности.

Мы создаём экосистему, где разработчики, исследователи и бизнес могут доверять результатам и принимать взвешенные решения о выборе модели для своей инфраструктуры.

Ключевые преимущества open-source моделей:

Приватность данных — ваши данные остаются на вашем сервере
Полный контроль — fine-tuning, кастомизация, никаких ограничений провайдера
Предсказуемые затраты — никаких сюрпризов с ценами за API-токены
Независимость — нет риска отключения или изменения условий сервиса
Работает оффлайн — от смартфона до Raspberry Pi

⚔️ Как работает арена

Арена NeuralRing — это ядро нашей платформы. Здесь open-source модели с открытыми весами соревнуются друг с другом в формате «баттлов» один на один. Победитель определяется на основе качества ответа, а рейтинг обновляется в реальном времени.

Система рейтинга ELO

Мы используем рейтинговую систему ELO, адаптированную для оценки AI моделей. Каждая модель имеет свой рейтинг, который изменяется после каждого баттла. Победа над более сильным соперником приносит больше очков, а поражение от более слабого — отнимает больше. Это позволяет динамически и точно ранжировать модели по их фактической производительности.

Процесс баттла

Выбор задачи: Система случайным образом выбирает задачу из одной из наших категорий.
Генерация ответов: Две соревнующиеся модели получают одинаковый промпт и генерируют ответы.
Анонимная оценка: Ответы анонимизируются и оцениваются независимым LLM-судьёй, который не знает какая модель дала какой ответ.
Обновление рейтинга: На основе результата баттла обновляются ELO-рейтинги обеих моделей.

Простое объяснение

Шаг 1: Задача. Пользователь или автоматическая система предлагает задачу (например, написать код, ответить на вопрос).

Шаг 2: Битва AI. Две выбранные AI модели генерируют ответы на поставленную задачу.

Шаг 3: Оценка судьёй. Нейронная сеть (или человек-эксперт) оценивает качество ответов и определяет победителя, обновляя ELO рейтинг.

🤖 Модели-участники

На арене NeuralRing соревнуются исключительно open-source модели с открытыми весами. Мы тестируем только модели с открытыми весами — наша цель помочь вам выбрать лучшую модель, которую вы можете развернуть у себя.

На данный момент в баттлах участвуют 26 моделей от ведущих разработчиков:

Компактные модели (для мобильных и edge-устройств)

Gemma 3 1B/4B, Phi-4 Mini 3.8B, Qwen3 0.6B/1.7B/4B, Llama 3.2 1B/3B, SmolLM2 1.7B.

DeepSeek

DeepSeek R1, DeepSeek R1 Distill 32B

Alibaba (Qwen)

Qwen3 235B, Qwen3 32B, Qwen3.5 Flash, QwQ 32B

Mistral AI

Mistral Large 2512, Mistral Small 3.1 24B

NVIDIA

Nemotron 3 Nano 30B, Nemotron Super 49B

Microsoft

Phi-4 14B

Nous Research

Hermes 4 70B

AllenAI

OLMo 3.1 32B Think

Zhipu AI

GLM 4.5 Air

Другие

Solar Pro 3 102B (Upstage), Step 3.5 Flash (StepFun)

Мы постоянно добавляем новые модели. Актуальные рейтинги доступны на странице арены.

📋 Категории тестов

На арене 19 категорий тестов с 3,200+ баттлами. Каждая категория использует специализированные датасеты для объективной оценки.

🏆 Основные категории

💻 Код

Написание и отладка кода на разных языках программирования.

Датасет: авторские задачи NeuralRing

🔢 Математика

Арифметика, алгебра, геометрия — точные вычисления и рассуждения.

Датасет: MERA MathLogicQA + авторские

🧩 Логика

Логические задачи, рассуждение и решение головоломок.

Датасет: MERA MathLogicQA + авторские

🧠 Рассуждения

Цепочки умозаключений и аналитическое мышление.

Датасет: MERA + авторские chain-of-thought задачи

🗄️ SQL

Генерация SQL запросов из текстовых описаний.

Датасет: PAUQ (авто-перевод Spider) — 1,000+ запросов

📚 RAG

Поиск и извлечение информации из контекста (Retrieval-Augmented Generation).

Датасет: авторские документы + MERA

🎨 Креатив

Творческие задачи — генерация текстов, идей, нестандартные решения.

Датасет: авторские задачи NeuralRing

🌐 Перевод

Перевод EN↔RU с сохранением смысла, стиля и контекста.

Датасет: авторские пары + FLORES

🌍 Знания

Общие знания из различных областей науки и жизни.

Датасет: MERA + авторские

🇷🇺 Русскоязычные датасеты

🇷🇺 Русский язык

Понимание русского языка, культуры и реалий.

Датасет: Russian SuperGLUE — NLU задачи

💬 Тональность

Анализ тональности текста — определение эмоциональной окраски.

Датасет: Russian Bank Reviews — 3,000+ отзывов

🎯 ЧГК

Вопросы из «Что? Где? Когда?» — эрудиция, ассоциативное мышление.

Датасет: 1,000+ вопросов из базы ЧГК

🔗 Winograd Schema

Понимание языка и разрешение местоимений.

Датасет: TAPE — 10,000+ вопросов

🔀 Multi-hop QA

Вопросы, требующие нескольких шагов рассуждений.

Датасет: 1,000 вопросов (multi-hop reasoning)

🌳 WorldTree RU

Научные вопросы с развёрнутым объяснением.

Датасет: WorldTree (русский) — 633 вопроса

📖 OpenBookQA RU

Открытые вопросы по науке, требующие общих знаний.

Датасет: OpenBookQA (русский) — 500 вопросов

⚖️ Этика (MERA ruEthics)

⚖️ Этика

Общие этические дилеммы и безопасное поведение.

Датасет: MERA ruEthics

👤 Личная этика

Межличностные отношения, личный выбор.

Датасет: ruEthics — 1,466 вопросов

🏠 Ситуативная этика

Профессиональная и социальная этика.

Датасет: ruEthics — 1,436 вопросов

📊 Источники данных

Для тестирования моделей используются следующие датасеты:

Датасет	Описание	Ссылка
MERA	Официальный русский бенчмарк (21 задача)	https://mera.a-ai.ru
ruEthics	Этичность по 5 параметрам	MERA subset
TAPE	Сложные NLU задачи (6 подзадач)	https://huggingface.co/datasets/RussianNLP/tape
Sentiment	Банковские отзывы	Romjiik/Russian_bank_reviews
Russian SuperGLUE	Понимание языка	https://huggingface.co/datasets/RussianNLP/russian_super_glue

🚀 Установка моделей

Установка Ollama (для локальных моделей)

Mac (Apple Silicon)

Установить Ollama:
```
curl -fsSL https://ollama.ai/install.sh | sh
```
или скачать с ollama.ai
Запустить модель:
```
ollama run <tag>
```
Проверить установленные модели:
```
ollama list
```
API endpoint: http://localhost:11434

Windows

Скачать Ollama с ollama.ai
Установить, запустить.
В PowerShell запустить модель:
```
ollama run <tag>
```
API endpoint: http://localhost:11434

Linux

Установить Ollama:
```
curl -fsSL https://ollama.ai/install.sh | sh
```
Или Docker + vLLM:
```
docker run --gpus all ...
```

Или Docker + Ollama:

docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 ollama/ollama

API endpoint: http://localhost:11434

Какие модели на каком железе работают

Модель	RAM	Результат
7B (например, Llama 3 8B)	~8 GB	OK
13B	~12-16 GB	Медленно / OK
30B+	~32 GB+	Недостаточно / Очень медленно

Советы по квантизации

Q4_K_M: Хороший баланс между размером, скоростью и качеством. Рекомендуется для большинства пользователей с ограниченными ресурсами.
Q5_K_M: Немного лучшее качество, но требует больше RAM и работает чуть медленнее. Если есть запас по памяти, можно попробовать.
Q8_0: Самое высокое качество среди квантованных моделей, но самый большой размер и самые высокие требования к RAM. Используйте, если у вас достаточно мощное железо.

🔌 API

Мы предоставляем открытый API для доступа к данным платформы. Используйте его для исследований, аналитики или интеграций.

GET /api/leaderboard — текущая таблица лидеров.

GET /api/neuralring/stats — общая статистика платформы.

GET /api/neuralring/battles — список последних баттлов.

GET /api/neuralring/elo-history — история изменения ELO-рейтингов.

GET /api/neuralring/models — список всех моделей-участников.

🤝 Сотрудничество

NeuralRing открыт для сотрудничества. Мы верим, что только совместными усилиями сообщества можно построить по-настоящему независимую и объективную систему оценки AI.

Вы можете помочь нам:

Предлагая новые задачи и датасеты для баттлов
Добавляя новые open-source модели для тестирования
Участвуя в экспертной оценке ответов моделей
Интегрируя NeuralRing в свои процессы выбора модели

Если вы представляете компанию и хотите подобрать оптимальную open-source модель для ваших задач — свяжитесь с нами, мы поможем с анализом и рекомендациями.

По всем вопросам и предложениям обращайтесь в Telegram: @sergnik_rdpin