Microsoft представляет Windows Agent Arena для тестирования агентов генеративного ИИ
Использование генеративного ИИ и больших языковых моделей для автоматизации и упрощения задач для людей, работающих с ПК, продолжало расти. Однако также необходимо посмотреть, насколько хорошо ИИ может работать для выполнения задач. На этой неделе Microsoft Research объявила о разработке бенчмарка специально для тестирования агентов ИИ на ПК с Windows.
Тест, как указано на странице Microsoft на GitHub, называется Windows Agent Arena. Эта структура разработана для проверки того, насколько хорошо и быстро агенты ИИ могут взаимодействовать с приложениями Windows, которые обычно используют люди. Список приложений, которые были протестированы с агентами ИИ в Windows Agent Arena, включал веб-браузеры, такие как Microsoft Edge и Google Chrome, функции ОС, такие как настройки проводника, приложения для кодирования, такие как Visual Studio Code), простые предустановленные приложения Windows, такие как Блокнот, Часы и Paint, и даже просмотр видео с помощью VLC Player.
Microsoft заявила:
Мы адаптируем фреймворк OSWorld для создания более 150 разнообразных задач Windows в репрезентативных доменах, которые требуют способностей агента в планировании, понимании экрана и использовании инструментов. Наш бенчмарк также масштабируется и может быть легко распараллелен в Azure для полной оценки бенчмарка всего за 20 минут.
Microsoft Research также создала своего собственного мультимодального агента под названием Navi для тестирования в бенчмарке Windows Agent Arena. Его попросили выполнить задания с определенными текстовыми подсказками, например: «Можете ли вы превратить веб-сайт, который я просматриваю, в PDF-файл и поместить его на мой главный экран, ну, вы знаете, на рабочий стол?». Было обнаружено, что средний показатель успешности Navi составил 19,5 процента, что все еще довольно низко по сравнению с оценкой человеческой производительности в 74,5 процента.
Наличие такого бенчмарка, как Windows Agent Arena, может стать огромным шагом вперед в создании агентов ИИ, что позволит усовершенствовать их и приблизить производительность к уровню человека.