Поиск публикаций  |  Научные конференции и семинары  |  Новости науки  |  Научная сеть
Новости науки - Комментарии ученых и экспертов, мнения, научные блоги

Другие новости от news2.ru

Реклама на проекте

["Какие сны в том смертном сне приснятся?"*] В 2024 году ИИ уже исчерпал данные всего человечества - и упёрся в потолок. Будущее за синтетическими данными: AGI перейдёт на автогенерацию

Thursday, 09 January, 14:01, news2.ru
1736424022_18_1736423517_80_1736423491_38_1736423397_69_1736423345_37_1736423147_21_1736423056_53_1736422874_3_file-20230116-16-3cd17m_large.jpegИлон Маск присоединился к мнению других экспертов в области искусственного интеллекта о том, что реальных данных для обучения ИИ-моделей практически не осталось."Мы исчерпали практически весь накопленный объём человеческих знаний для обучения ИИ. Это произошло фактически в прошлом году", - заявил Маск во время трансляции беседы с председателем Stagwell Марком Пенном на платформе X.Маск, владелец компании xAI, поддержал идеи, которые бывший главный научный сотрудник OpenAI Илья Суцкевер озвучил на конференции по машинному обучению NeurIPS в декабре. Суцкевер, заявивший о достижении "пика данных" в индустрии ИИ, предсказал, что нехватка обучающих данных вынудит изменить существующие подходы к разработке моделей.Маск предложил решение - использование синтетических данных, генерируемых самими ИИ-моделями. "Единственный способ дополнить реальные данные - это синтетические данные, где ИИ сам создаёт обучающие материалы. С синтетическими данными ИИ будет оценивать себя сам и проходить через процесс самообучения", - отметил он.Крупные технологические компании, включая Microsoft, Meta*, OpenAI и Anthropic, уже используют синтетические данные для обучения своих флагманских ИИ-моделей. По оценкам Gartner, 60% данных, используемых для проектов в области ИИ и аналитики в 2024 году, были сгенерированы синтетически. Модель Microsoft Phi-4, открытый код которой был опубликован на этой неделе, обучалась на комбинации синтетических и реальных данных. Аналогичный подход использовался при создании моделей Google Gemma. Anthropic применила синтетические данные при разработке одной из своих самых эффективных систем - Claude 3.5 Sonnet, а Meta* улучшила последнюю серию моделей Llama с помощью ИИ-генерированных данных.Обучение на синтетических данных имеет ряд преимуществ, включая экономическую эффективность. Стартап Writer утверждает, что их модель Palmyra X 004, разработанная почти полностью на синтетических источниках, обошлась всего в $700 000 - по сравнению с оценочной стоимостью в $4,6 миллиона за сопоставимую модель OpenAI.Однако существуют и недостатки. Некоторые исследования показывают, что синтетические данные могут привести к "коллапсу модели", когда ИИ становится менее "креативным" и более предвзятым в своих результатах, что в конечном итоге может серьёзно нарушить его функциональность. Поскольку модели создают синтетические данные на основе уже существующих, любые предубеждения и ограничения в исходных данных будут воспроизводиться в их результатах.*Meta признана экстремистской организацией, её деятельность на территории Российской Федерации запрещена9 января 2025 в 09:29Автор: Darth Saharan2_1736423989.jpgdALX3QOkzao.jpg?size=604x574quality=96sign=4de9ed51b769ae5699a45d57f15b2b4btype=album(https://www.ixbt.com/news...)
Читать полную новость с источника 

Комментарии (0)