Нам больше нечему учить ИИ, теперь он будет учить нас. Илон Маск подвел черту
Илон Маск заявил, что человечество подошло к краю своих возможностей в обучении искусственного интеллекта на реальных данных. В эфире трансляции на платформе X, которую он провел вместе с председателем Stagwell Марком Пенном, Маск отметил, что «совокупный объем человеческих знаний» для тренировки ИИ был практически исчерпан ещё в прошлом году.
— Реальных данных для обучения моделей ИИ осталось мало, — говорит Маск.
Эта точка зрения перекликается с недавними заявлениями Ильи Суцкевера, бывшего главного научного сотрудника OpenAI. Он назвал текущее состояние индустрии ИИ «пиковыми данными» и предсказал, что нехватка информации для обучения моделей заставит разработчиков переосмыслить подходы.
Синтетические данные — ключ к будущему
Маск считает, что выход из ситуации лежит в создании синтетических данных — информации, сгенерированной самими моделями ИИ.
— Единственный способ дополнить данные реального мира — это использовать синтетические данные, которые ИИ генерирует для обучения, — говорит Маск.
Компании, такие как Microsoft, Meta, OpenAI и Anthropic, уже активно используют этот подход. Исследование Gartner прогнозирует, что в 2024 году 60% данных, используемых для аналитики и ИИ, будут синтетическими. Примером служит Phi-4 от Microsoft, который был обучен как на реальных, так и на синтетических данных. Аналогично, модели Gemma от Google, Claude 3.5 Sonnet от Anthropic и обновлённая серия Llama от Meta также включают синтетические источники.
Экономия и риски
Переход на синтетические данные может значительно снизить затраты на обучение моделей. Например, стартап Writer разработал свою модель Palmyra X 004 почти полностью на синтетических данных, что обошлось в $700,000. Для сравнения, обучение модели OpenAI сопоставимого размера стоит около $4,6 млн. Однако есть и подводные камни. Исследования показывают, что избыточная зависимость от синтетических данных может привести к так называемому «коллапсу модели». Это состояние, при котором ИИ становится менее креативным, а его результаты — более предвзятыми. Если первоначальные данные содержат ошибки или ограничения, эти проблемы усилятся в сгенерированных данных, что может серьезно повлиять на функциональность модели.
Проще говоря
Будущее искусственного интеллекта, по мнению Маска, связано с самообучением и генерацией данных. Однако успех этой стратегии будет зависеть от того, насколько качественно разработчики смогут преодолеть риски, связанные с предвзятостью и ограничениями.
Может быть интересно:
Глава Nvidia сказал 2 слова и обрушил акции компаний, создающих квантовые компьютеры