Серия постов «Новости»

2

Вышла новая модель для синтеза речи ZONOS2⁠⁠

6 часов назад

Введена новая TTS-модель ZONOS2 (https://huggingface.co/Zyphra/ZONOS2) для работы в реальном времени с высокоточным клонированием голоса под лицензией Apache 2.0.

Его разреженный Mixture of Experts (MoE) обладает 8 млрд параметров и 900 млн активных, став первым открытым MoE TTS.

Гибкие настройки дают выбор между "стабильным" (чистый студийный звук) и "экспрессивным" (максимальная верность исходному голосу) режимами.

Обучение осуществлялось на более 6 млн часов аудио с трёхэтапной фильтрацией при постепенном ужесточении требований к согласованности транскриптов.

Текст подвергают токенизации в формате сырых UTF-8 байтов без фонемизации. Аудио преобразуют в токены кодека DAC (44.1 кГц), используя автогрессивный паттерн задержки.

Среди настроек есть цифровой отпечаток голоса (ECAPA-TDNN), скорость речи, качественные параметры (полоса, громкость, SNR).

Представленный эталон ZTTS1‑Eval показал чистые (FLEURS‑R) и "дикие" (VoxBlink2) выборки, метрики интонации и ритма (Allosaurus SR, Pitch, DS‑WED), схожесть диктора (ReDimNet) и качества (MSR‑UTMOS, Qwen3‑ASR).

В результате обеспечен 4-кратный прирост скорости против предыдущей версии и качество на уровне ведущих решений.

Показать полностью 2

1

2

user4740118

Вышла новая модель для управления роботами Hy-Embodied-0.5-VLA⁠⁠

Серия Новости

1 день назад

Доступен новый полный стек Hy-Embodied-0.5-VLA (https://huggingface.co/tencent/Hy-Embodied-0.5-VLA-RoboTwin) для обучения роботов от сбора данных до реального внедрения.

Собственное устройство UMI с оптическим захватом движений накопило более 10 тыс. часов эгоцентричных демонстраций субмиллиметровой точности, и эти же траектории используются для пост-тренировки.

Базовую модель VLA на Hy-Embodied-0.5 (4B MoT) дополнили экспертом действий на сопоставлении потоков, компактным энкодером памяти (сжатие временной истории без роста числа токенов) и дельта‑чанковым представлением действий в системе координат захвата (отвязано от кинематики робота).

Предобучение и файнтюнинг потребовали 200K шагов на 10K-часовом UMI-корпусе, затем SFT по двум трекам, проводя адаптацию к тому же роботу (Track A) и кросс‑эмбодиментный перенос только по UMI-данным без телеоперации целевого робота (Track B).

RL пост-тренировка (FlowPRO) использовала офлайн RL без критика и модели вознаграждения, собирая пары предпочтений через вмешательство-откат с оператором, оптимизируя RPRO (плавная адаптация оптимизации предпочтений) с контрастной отменой градиентов, превращая неудачные прогоны в быстрое улучшение до почти 100% успешности.

Асинхронный конвейер позволил сделать одновременный вывод и исполнение, сглаживая чанки кубическими кривыми Безье для плавных переходов без резких изломов, переводя действия на разные платформы без изменения обученного интерфейса.

В результате продемонстрированы лучшие показатели 90,9% и 90,1% в чистом и рандомизированном режимах на RoboTwin 2.0, а также успешно прошло реальное исполнение на нескольких роботах, включая кросс‑эмбодиментный перенос на JAKA K1 и андроида Astribot S1. FlowPRO дало прирост до 99% успеха на сложных двуручных задачах.

Показать полностью 3

[моё] Искусственный интеллект Нейронные сети Генерация Робот Робототехника Длиннопост

0

2

user4740118

Вышла новая модель для генерации видео Bernini⁠⁠

Серия Новости

2 дня назад

Анонсирована новая модель Bernini (https://huggingface.co/ByteDance/Bernini-R), которая разделяет труд между выполняющим семантическое планирование MLLM и диффузионным рендерингом (DiT), синтезирующим пиксели. Интерфейсом стало собственное пространство эмбеддингов ViT, уже использующее MLLM.

Планировщик (MLLM) предсказывает целевые визуальные эмбеддинги через маскированное генеративное моделирование. Рендерер (DiT), в свою очередь, по полученному семантическому плану, текстовым признакам и VAE-признакам источника генерирует видео методом сопоставления потоков.

Стандартизации помог единый входной протокол для text-to-video, subject-to-video и редактирования вместе с введённым SA-3D RoPE для разделения визуальных токенов разных сегментов.

Качество редактирования улучшили, встроив в планировщик текстовые и визуально-текстовые цепочки мыслей (CoT).

Информацию взяли из масштабного многозадачного корпуса, состоящего примерно из 20M видеопар, почти 30M пар изображений, данных для редактирования с учётом движения, генерации на основе референса и рассуждений.

Три стадии обучения включали предобучение MLLM-планировщика, предобучение DiT-рендерера и лёгкую совместную донастройку с сохранением предобученных способностей.

В результате получен уровень SOTA на бенчмарках видеоредактирования (OpenVE-Bench, EditVerse, FiVE и собственный Bernini-Bench), генерации (VBench) и subject-to-video (OpenS2V-Eval), а также обнаружено обобщение на инструкции, отсутствовавшие в обучении.

Показать полностью 3

[моё] Искусственный интеллект Нейронные сети Генерация Генерация видео Длиннопост

0

1

user4740118

Вышла новая модель Kimi K2.7 Code⁠⁠

Серия Новости

3 дня назад

Предложена новая кодовая агентная модель Kimi K2.7 Code (https://huggingface.co/moonshotai/Kimi-K2.7-Code) на базе K2.6, оптимизированная для реальных долгоиграющих задач со сниженным на примерно 30% расходом "думающих" токенов под лицензией Modified MIT.

Чтобы избежать деградации качества, её нативно квантизировали до INT4, как Kimi K2 Thinking.

Архитектура MoE содержит 1 трлн параметров, из которых активируются 32 млрд. Они распределены по 61 слою, включая 1 плотный, и управляются 384 экспертами, по 8 на каждый токен. Размерность внимания равна 7168 при использовании 64 голов, контекста в 256 тысяч токенов, MLA, активации SwiGLU и зрительного энкодера MoonViT (400M).

В результате замечен значительный прирост по сравнению с K2.6, составивший +21.8% на Kimi Code Bench, +11% на Program Bench и +31.5% на MLS Bench Lite, а также рост в агентных тестах (Kimi Claw, MCP Atlas, MCP Mark Verified).

Показать полностью 1

[моё] Искусственный интеллект Нейронные сети Генерация Генерация текста Чат-бот

1

user4740118

Вышла новая модель MiniMax M3⁠⁠

Серия Новости

4 дня назад

Загружена первая открытая модель MiniMax M3 (https://huggingface.co/MiniMaxAI/MiniMax-M3), объединяющая три флагманские способности, включая сильный кодинг, агентность, окно контекста до 1 млн токенов (архитектура MSA) и нативную мультимодальность (изображения, видео, рабочий стол).

Новая разрежённая архитектура внимания MSA (MiniMax Sparse Attention) снизила вычислительную стоимость на сверхдлинных контекстах (предварительная обработка быстрее в 9 раз, декодирование в 15 раз по сравнению с прошлым поколением, и при 1M токенов вычисления на токен снизились в 20 раз).

На реальных задачах она смогла автономно воспроизвести научную работу ICLR за 12 ч (18 коммитов, 23 графика), оптимизировать CUDA-ядро FP8 GEMM с 7.6% до 71.3% пиковой утилизации (рост в 9.4 раза) за примерно 24 ч без участия человека, а также самостоятельно провести полный цикл дообучения 4 базовых моделей (37.1 на PostTrainBench, уступая только Opus 4.7 и GPT-5.5).

В результате модель сопоставима с закрытыми топами, набрав 59.0 на SWE-Bench Pro, 66.0 на Terminal-Bench, 83.5 на BrowseComp и других.

Показать полностью 3

[моё] Искусственный интеллект Нейронные сети Генерация Генерация текста Чат-бот Длиннопост

0

1

user4740118

Вышла новая модель для генерации видео SCAIL-2⁠⁠

Серия Новости

5 дней назад

Существующие методы анимации персонажей используют промежуточные представления (скелеты, маски фона), что приводит к потере информации и ошибкам при сложных взаимодействиях, перекрытиях и смене телосложения.

В ответ разработали SCAIL-2 (https://huggingface.co/zai-org/SCAIL-2) с end-to-end подходом, который подаёт управляющее видео напрямую в латентную диффузионную модель, извлекая всю визуальную информацию без промежуточных этапов.

Данные были получены из синтетического датасета MotionPair-60K (около 60 тыс. пар движений) с помощью генераторов (SCAIL, Wan-Animate, MoCha) и техники обратного управления, чтобы реальное видео служило целевым качеством.

Единого формата подзадач достигли через универсальный фреймворк для анимации, замены персонажей и групповых сцен за счёт In-Context Mask Conditioning с масками среды и каналами привязки персонажей для разграничения режимов и исключения путаницы, а также Mode-Specific RoPE с различными сдвигами позиционного кодирования для режимов анимации и замены.

Над устранением систематической ошибки синтетики работает Bias-Aware DPO, выполняющий пост-тренировку с региональной DPO-оптимизацией на парах предпочтений, нацеленную на улучшение детализированных областей (пальцы).

В результате SCAIL-2 превосходит современные методы во всех задачах (анимация одного или нескольких персонажей, замена), демонстрирует zero-shot возможности (управление от животных, от первого лица) и превосходит генераторы, на которых обучался.

Показать полностью 3

[моё] Искусственный интеллект Нейронные сети Генерация Генерация видео Длиннопост

1

2

user4740118

Вышла новая модель DiffusionGemma⁠⁠

Серия Новости

6 дней назад

Стала общедоступной новая экспериментальная открытая модель DiffusionGemma (https://huggingface.co/collections/google/diffusiongemma) на 26B параметров (MoE, активны 3.8B), основанная на диффузии текста, а не на авторегрессии, с лицензией Apache 2.0.

Работа происходит через генерацию блоков по 256 токенов сразу с итеративным уточнением и двунаправленным вниманием (текст "проявляется" из шума, как в диффузионных картинках).

На выделенных GPU скорость в 4 раза выше по сравнению с авторегрессивными моделями (около 1100 токенов/с на H100 и около 700 токенов/с на RTX 5090), причём после квантизации необходимо всего 18 ГБ видеопамяти (VRAM).

Она подходит для локальных интерактивных приложений с низкой задержкой, чтобы быстро редактировать, автодополнять код и нелинейно генерировать (таблицы, графы, разметка).

На данный момент невозможно добиться выигрыша в высоконагруженных облачных системах с пакетной обработкой, а на архитектурах с общей памятью (Apple Silicon) ускорение минимально.

В результате качество ниже, чем у стандартной Gemma 4 (например, MMLU Pro 77.6% против 82.6%), ради скорости и параллельной работы, но возможна тонкая настройка под специфические задачи (судоку, нелинейные структуры).

Показать полностью 1

[моё] Искусственный интеллект Нейронные сети Генерация Генерация текста Чат-бот Google

2

0

user4740118

Вышла новая модель North-Mini-Code-1.0⁠⁠

Серия Новости

7 дней назад

Выпущена новая модель North-Mini-Code-1.0 (https://huggingface.co/CohereLabs/North-Mini-Code-1.0) с 30B параметров (MoE, 3B активных) и лицензией Apache 2.0, предназначенная для агентных задач программирования, работы в терминале и генерации кода.

Архитектура построена на декодер-трансформере, чередовании оконного self-attention (SWA и RoPE) и полного self-attention (без позиционных эмбеддингов) в соотношении 3:1. При этом MoE включает 128 экспертов, из которых 8 активны на токен, имеет активацию SwiGLU, сигмоидный роутер и один плотный слой перед разреженными.

Для посттренинга было два этапа SFT. Этап 1 содержал 30B токенов (75% код) и контекст 64K, а этап 2 уже 4.5B токенов (61% код, агентные данные) и контекст 128K. Также использовали данные из контейнеризованных сред (более 70k задач, около 5k репозиториев) и дедупликацию с SWE-Bench/Pro. Такая SFT-модель получила pass@10 в 80.2% на SWE-Bench Verified и 55.1% на Terminal-Bench v2.

Процесс RLVR (Reinforcement Learning with Verifiable Rewards) охватил асинхронный цикл (тренер и vLLM sidecar) с окном FIFO очереди, целевую функцию CISPO (лог-правдоподобие с выборкой по важности на уровне токенов), единый запуск на двух средах, вобравший терминальные задачи (ReAct) и SWE-задачи (SWE-agent), бинарные награды по юнит-тестам, штраф за невалидные вызовы инструментов. Всё это повлияло на прирост +7.9% (до 36.0) на Terminal-Bench и +3.0% (до 67.6) на SWE-Bench Verified.

Обучение на нескольких каркасах (SWE-Agent, mini-SWE-Agent, OpenCode, Terminus-2) с небольшой долей данных (6%) дало перенос без потерь и, в частности, 61.0% pass@1 с mini-SWE-Agent на SWE-Bench Verified.

Внутренняя оценка людьми (RLVR против SFT) обнаружила улучшения в редактировании кода (общий винрейт 66.1% в пользу RLVR-модели) и сильно выраженный эффект на задачах "реализация с нуля" и "визуализация данных".

В результате при сравнении с аналогами она демонстрирует 36.0 на Terminal-Bench v2 (лучше Poolside XS.2, Gemma4, Devstral Small 2, но ниже Qwen3.6), 67.6 на SWE-Bench Verified (на уровне Qwen3.6 и Devstral Small 2), 40.2 на SWE-Bench Pro и 70.3 на LiveCodeBench v6, а на индексе Artificial Analysis Coding Index обходит модели вплоть до 120B.

Показать полностью 4

[моё] Искусственный интеллект Нейронные сети Генерация Генерация текста Чат-бот Длиннопост

0

Серия «Новости»

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества