GAPERON: Ещё один LLM, и теперь разбираемся с помоями в данных.
Все мы устали от языковых моделей, которые запоминают данные, как попугаи, и бездумно повторяют заученное, выдавая это за «интеллект». Но что, если мы признаем, что фильтрация данных, призванная улучшить качество, может лишь усилить эту проблему, незаметно внедряя предвзятости и «заучивая» лишь то, что уже хорошо известно? Именно в этот момент появляется «Gaperon: A Peppered English-French Generative Language Model Suite», ставя под сомнение общепринятые подходы к очистке данных и предлагая новый взгляд на создание действительно генеративных моделей. Но, если эта «перец» фильтрации, как бы ни была хороша, в конечном итоге лишь замаскирует истинную неспособность модели к реальному пониманию и творчеству, а не устранит ее?








