Масштабирование интеллекта: Обучение TeleChat3-MoE

В статье подробно описывается инфраструктура и оптимизации, разработанные для обучения семейства больших моделей TeleChat3, использующих архитектуру Mixture-of-Experts.

В статье подробно описывается инфраструктура и оптимизации, разработанные для обучения семейства больших моделей TeleChat3, использующих архитектуру Mixture-of-Experts.

Новое исследование выявило серьезные уязвимости в системах персонализированного искусственного интеллекта, основанных на технологии RAG, которые приводят к утечке конфиденциальной информации в более чем 15% случаев.

Исследователи предлагают инновационный подход к решению сложных обратных задач, объединяя глубокое обучение с теорией оптимального управления и методами проксимальной оптимизации.

Новое исследование показывает, что адаптивный подход к поиску и генерации ответов может повысить точность, но проблема «галлюцинаций» остается актуальной даже при наличии достаточного контекста.
![Разность химических потенциалов льда Ih и воды, рассчитанная с использованием моделей, основанных на теории функционала плотности, демонстрирует температурные точки, в которых [latex]\Delta\mu\_{\mathrm{ice}-\mathrm{liq}}(T)=0[/latex], определяющие температуры плавления [latex]T\_{\mathrm{m}}[/latex].](https://arxiv.org/html/2512.23939v1/x7.png)
Новое исследование сравнивает точность различных методов машинного обучения при моделировании поведения воды и льда, раскрывая ключевые факторы, влияющие на предсказание фазовых переходов.

Исследование показывает, что многослойные полиномиальные приближения значительно превосходят традиционные методы при работе с функциями, имеющими алгебратические сингулярности типа ‘острия’.

В этой статье мы расскажем, как быстро и эффективно обучать модели Hugging Face на платформе AWS SageMaker, избавляя вас от сложностей развертывания в облаке.
![Разработанная модель SeedFold, масштабируемая по ширине ([latex]Pairformer[/latex]), архитектуре - за счет линейного треугольного внимания, снижающего вычислительную сложность, и объему данных - благодаря дистилляции до 26.5 миллионов примеров, демонстрирует передовые результаты на FoldBench, превосходя AlphaFold3 и другие открытые модели в различных задачах, при этом SeedFold с шириной 512 использует стандартное треугольное внимание, а SeedFold-Linear с шириной 384 - линейное.](https://arxiv.org/html/2512.24354v1/x1.png)
Исследователи представили SeedFold — модель, способную предсказывать структуру биомолекул с беспрецедентной эффективностью благодаря масштабированию данных и инновационной архитектуре.

Исследователи представили MCPAgentBench — комплексную платформу для оценки эффективности больших языковых моделей при использовании различных инструментов для решения реальных задач.
![В синтетических экспериментах, имитирующих смешанные искажения, наблюдается, что относительное изменение [latex]\Delta F_1[/latex] напрямую зависит от степени повсеместного ранжирования ([latex]qP_P[/latex]) и интенсивности искажения ([latex]Ud_d[/latex]), при этом увеличение плотности локального искажения ([latex]Ld_d[/latex]) при фиксированном повсеместном искажении закономерно снижает общую производительность, что подтверждено усреднением по десяти повторным измерениям.](https://arxiv.org/html/2512.24696v1/figures/dcl2_rep10_SHD_vs_Ld.png)
Новый подход позволяет обнаруживать причинно-следственные связи даже при наличии скрытых переменных, влияющих на данные.