Последние новости
Создан новый сорт картофеля для выращивания в Арктике Благосостояние жителей древнего Крыма оказалось лучше, чем считалось Метеорит, упавший в дом в США, оказался старше Земли Близкие люди сражаются за наследство Ивана Краско Названо возможное место прощания с Иваном Краско Борющийся с раком Роман Попов рассказал об ухудшении самочувствия Apple обвинили в краже технологии бесконтактной оплаты В Прибалтике началась травля русскоязычных детей Россиянка описала особенности жизни в Гонконге фразой «у меня культурный шок»
Garvard otkryl nejrosetjam dostup k svoej biblioteke f9079e2.jpg

Гарвард открыл нейросетям доступ к своей библиотеке

Гарвардский университет представил масштабный проект, который может изменить подход к созданию инструментов искусственного интеллекта. Новый набор данных, включающий почти миллион книг, уже находящихся в общественном достоянии, был разработан в рамках недавно созданной Гарвардской институциональной инициативы данных.

Этот проект реализован при финансовой поддержке Microsoft и OpenAI и основан на материалах уже оцифрованных в Google Books.

Новинка существенно превосходит по объёму предыдущие известные базы данных, такие как Books3, которые активно использовались для обучения крупных языковых моделей. Новая база включает в себя произведения мировой классики, учебники, редкие словари и многое другое. Такой состав текстов делает её уникальным ресурсом, который открывает доступ к высококачественным данным не только крупным корпорациям, но и небольшим исследовательским коллективам.

Грег Лепперт (Greg Leppert), возглавляющий проект, считает, что инициатива станет значительным шагом к демократизации искусственного интеллекта. Он подчёркивает, что открытые данные могут стать основой для создания качественных и разнообразных моделей. Тем не менее, для достижения конкурентного преимущества компаниям придётся дополнять открытые базы данными, собранными самостоятельно или лицензированными.

Кроме книг инициатива планирует работать с другими источниками данных. Например, совместно с Бостонской публичной библиотекой ведётся оцифровка газетных статей. Подобные проекты уже активно развиваются и за пределами Гарварда. Во Франции был создан Common Corpus, содержащий миллионы книг и журналов, а стартап Spawning выпустил набор данных Source.Plus с открытыми изображениями.

Рост таких инициатив подтверждает, что для создания эффективных моделей искусственного интеллекта необязательно использовать материалы, защищённые авторским правом. Хотя крупные игроки рынка продолжают настаивать на важности доступа к лицензированным данным, развитие открытых ресурсов ставит под сомнение эту точку зрения. Эксперты считают, что подобные проекты могут стать серьёзным подспорьем, если использовать их для замены закрытых и платных баз данных.

Опубликовано: 13 декабря 2024