Глобальный PIQA: Когда здравый смысл говорит на разных языках.

Долгое время оценка здравого смысла больших языковых моделей была сосредоточена на узком спектре задач и, что важнее, на доминирующем английском языке, что создавало искажённую картину их истинных возможностей в глобальном масштабе. Прорыв, представленный в ‘Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures’, заключается в создании первого по-настоящему многоязычного и культурно-специфичного бенчмарка, собранного усилиями исследователей со всего мира, и преодолевающего искусственные барьеры, порожденные анголоцентричным подходом. Но сможет ли эта новая перспектива, основанная на понимании физического здравого смысла в более чем ста культурах, привести к созданию действительно универсальных моделей, способных мыслить не только «как человек», но и «как мир»?






