HunyuanOCR: Зрение и язык для точного распознавания текста

Производительность системы распознавания текста HunyuanOCR демонстрирует высокую точность, позволяя эффективно преобразовывать изображения в текст.

Новая модель HunyuanOCR объединяет возможности компьютерного зрения и обработки естественного языка для достижения передовых результатов в задачах оптического распознавания символов.

Искусственный интеллект на службе материаловедению: новый подход к ускорению открытий

Траектории активного обучения, спроецированные на первые две главные компоненты стандартизированного пространства признаков, демонстрируют, как модели исследуют пространство, начиная с начальной точки и завершаясь наиболее эффективным образцом, при этом цветовое кодирование указывает на наблюдаемое целевое значение и позволяет сравнить стратегии исследования для различных подходов - от запросов, основанных на параметрах или отчётах, до традиционных методов машинного обучения и случайного блуждания.

Исследование демонстрирует, как современные языковые модели могут эффективно управлять экспериментами в материаловедении, предлагая гибкую альтернативу традиционным методам машинного обучения.

Интернет, рожденный искусственным интеллектом: новый взгляд на архитектуру сети

Архитектура сети, изначально спроектированная для искусственного интеллекта, обеспечивает бесшовную интеграцию вычислительных ресурсов, хранения данных и сетевой инфраструктуры, оптимизированную для выполнения сложных алгоритмов и обработки больших объемов информации, необходимых для функционирования интеллектуальных приложений и сервисов.

В статье рассматривается концепция принципиально новой архитектуры интернета, ориентированной на семантический поиск и эффективную работу с данными для приложений искусственного интеллекта.

Динамика в кадре: Как научить ИИ понимать физику видео

Разработанная система MASS значительно расширяет возможности видео-вопросно-ответных моделей за счет интеграции модуля, явно кодирующего пространственно-временные характеристики движения объектов и динамику сцены в языковое пространство, что позволяет достичь превосходных результатов в понимании физических процессов, выявлении аномалий и превосходит современные модели, такие как GPT-4o и Gemini-2.5-Flash, благодаря более глубокому осмыслению видеоинформации и способности к логическим умозаключениям.

Новый подход позволяет моделям искусственного интеллекта лучше интерпретировать видео, учитывая движение объектов и их взаимодействие в пространстве и времени.

Искусственный интеллект и философия: как нейросети отражают наше понимание реальности

Новое исследование показывает, что современные подходы к обучению нейросетей неявно опираются на философские концепции, в частности, на структурный реализм.

Изображения в 4K по запросу: новый подход к генерации контента

Анализ наборов данных по соотношению сторон и разрешению, основанный на выборке в 10 000 единиц, выявил, что набор MultiAspect-4K-1M характеризуется более широким распределением соотношений сторон.

Исследователи представили UltraFlux — систему, способную создавать детализированные изображения высокого разрешения на основе текстовых описаний, преодолевая ключевые ограничения существующих моделей.

В поисках идеального материала: глубина анализа и обоснованность выводов

В текущем ландшафте искусственного интеллекта в химии и материаловедении наблюдается разрыв между широким охватом областей применения и недостаточной глубиной проработки отдельных задач, что указывает на необходимость сбалансированного подхода к развитию систем для достижения значимых прорывов.

Новое исследование подчеркивает критическую важность детализации, доказательной базы и логической последовательности в процессе научных открытий.

Рекомендации с объяснениями: новый подход к прозрачности

Применяя метод SPINRec, система выявляет элементы из истории пользователя, наиболее ответственные за рекомендацию фильма «Король Лев», и демонстрирует, что маскировка этих элементов приводит к резкому падению позиции рекомендации, подтверждая достоверность объяснения.

Исследователи предлагают метод, позволяющий не только предсказывать предпочтения пользователей, но и наглядно демонстрировать, почему была сделана та или иная рекомендация.