Группа Microsoft Research Outreach последние несколько лет активно работала с внешним исследовательским сообществом над созданием облачной инфраструктуры для научных исследований. За это время мы в полной мере ощутили правоту четвертой парадигмы Джима Грея, в соответствии с которой научные открытия происходят на основе обработки больших объемов данных, то есть почти все исследовательские проекты требуют работы с данными. Кроме прочего, рост потоков данных продемонстрировал потребность исследовательского сообщества в систематизированных наборах осмысленных данных, необходимых не только в области информатики, но и в междисциплинарных и предметных науках.
Сегодня мы рады представить Microsoft Research Open Data — новый облачный репозиторий данных, созданный для облегчения совместной работы в международном исследовательском сообществе. Это удобное централизованное облачное хранилище предлагает наборы данных, ставшие результатом многих лет систематизированного сбора данных и исследовательской работы Microsoft. Эти датасеты уже использовались в опубликованных научных исследованиях.
Почему мы инвестируем в это
Наша цель — предоставить исследователям из Microsoft и их партнерам простую платформу для обмена наборами данных и другими исследовательскими инструментами и технологиями. Платформа MicrosoftResearch Open Data упрощает доступ к наборам данных и облегчает взаимодействие между исследователями, предоставляя необходимые облачные ресурсы и обеспечивая воспроизводимость исследований. Мы продолжим развивать и расширять этот репозиторий и будем добавлять в него функции, о которых просит сообщество.
Мы понимаем, что исследователи уже используют десятки других репозиториев данных, и надеемся, что наш репозиторий расширит имеющиеся возможности для исследований.
Рис. 1. Набор данных в Microsoft Research Open Data.
«Это многое меняет в сообществе больших данных. Инициативы, подобные Microsoft Research OpenData, уменьшают барьеры на пути к совместному использованию данных и помогают обеспечивать воспроизводимость, используя мощь облачных вычислений».
— Сэм Мэдден, профессор Массачусетского технологического института
Если объемы данных продолжат расти с экспоненциальной скоростью, то к 2025 году у нас будет более 150 зеттабайт данных. Поэтому уже сейчас понятно, что необходимо обрабатывать данные там, где они находятся, а не передавать их по каналам доступа к Интернету, пропускная способность которых растет гораздо медленнее. Мы считаем, что возможность обрабатывать данные там, где они находятся, будет действительно полезной. Поэтому пользователи смогут не только загружать данные на свои компьютеры, но и копировать наборы данных непосредственно на виртуальную машину Data Science в Azure, как показано на рис. 2.
Рис. 2. Данные, скопированные с microsoftopendata.com на виртуальную машину Linux в Azure.
В виртуальную машину Data Science по умолчанию загружены различные средства разработки, популярные среди исследователей и практиков (рис. 3).
Рис. 3. Виртуальная машина Linux Data Science.
«Меня часто просят поделиться моими исследовательскими данными, и те данные, которые я уже предлагал общественности, пользовались большим спросом. Координация и каталогизация этих наборов данных в одном месте с помощью Azure будет полезна как внутренним, так и сторонним исследователям. Это облегчит доступ, будет способствовать сотрудничеству и предоставит возможность использовать богатые наборы общедоступных данных в облаке Microsoft Research».
— Джон Крамм, старший исследователь Microsoft Research AI
Наборы данных в Microsoft Research Open Data категоризированы по основной области исследований, как показано на рис. 4. Здесь можно найти ссылки на исследовательские проекты или публикации, в которых использован выбранный набор данных. Можно просматривать доступные наборы данных и загружать их на свой компьютер или копировать непосредственно в подписку Azure с помощью автоматизированного рабочего процесса. Репозиторий, насколько это возможно, отвечает самым высоким стандартам обмена информацией, обеспечивая доступность наборов данных, их совместимость и возможность многоразового использования; весь корпус не содержит никакой информации, по которой можно идентифицировать личность. Мы продолжим развивать эту платформу по мере получения отзывов от пользователей.
Рис. 4. Категории наборов данных.
Microsoft Research Open Data — результат работы научной программы Microsoft Research Outreach Data, достижение которого стало возможным благодаря сотрудничеству между многими командами и исследователями из Microsoft, нашими отраслевыми партнерами и научными консультантами.