Новости

« Назад

Microsoft 03.08.2018 08:37

Группа Microsoft Research Outreach последние несколько лет активно работала с внешним исследовательским сообществом над созданием облачной инфраструктуры для научных исследований. За это время мы в полной мере ощутили правоту четвертой парадигмы Джима Грея, в соответствии с которой научные открытия происходят на основе обработки больших объемов данных, то есть почти все исследовательские проекты требуют работы с данными. Кроме прочего, рост потоков данных продемонстрировал потребность исследовательского сообщества в систематизированных наборах осмысленных данных, необходимых не только в области информатики, но и в междисциплинарных и предметных науках.

 

Сегодня мы рады представить Microsoft Research Open Data — новый облачный репозиторий данных, созданный для облегчения совместной работы в международном исследовательском сообществе. Это удобное централизованное облачное хранилище предлагает наборы данных, ставшие результатом многих лет систематизированного сбора данных и исследовательской работы Microsoft. Эти датасеты уже использовались в опубликованных научных исследованиях.

 

Почему мы инвестируем в это

Наша цель — предоставить исследователям из Microsoft и их партнерам простую платформу для обмена наборами данных и другими исследовательскими инструментами и технологиями. Платформа MicrosoftResearch Open Data упрощает доступ к наборам данных и облегчает взаимодействие между исследователями, предоставляя необходимые облачные ресурсы и обеспечивая воспроизводимость исследований. Мы продолжим развивать и расширять этот репозиторий и будем добавлять в него функции, о которых просит сообщество.

 

Мы понимаем, что исследователи уже используют десятки других репозиториев данных, и надеемся, что наш репозиторий расширит имеющиеся возможности для исследований.

 

1

Рис. 1. Набор данных в Microsoft Research Open Data.

 

«Это многое меняет в сообществе больших данных. Инициативы, подобные Microsoft Research OpenData, уменьшают барьеры на пути к совместному использованию данных и помогают обеспечивать воспроизводимость, используя мощь облачных вычислений».


— Сэм Мэдден, профессор Массачусетского технологического института

Если объемы данных продолжат расти с экспоненциальной скоростью, то к 2025 году у нас будет более 150 зеттабайт данных. Поэтому уже сейчас понятно, что необходимо обрабатывать данные там, где они находятся, а не передавать их по каналам доступа к Интернету, пропускная способность которых растет гораздо медленнее. Мы считаем, что возможность обрабатывать данные там, где они находятся, будет действительно полезной. Поэтому пользователи смогут не только загружать данные на свои компьютеры, но и копировать наборы данных непосредственно на виртуальную машину Data Science в Azure, как показано на рис. 2.

 

2

Рис. 2. Данные, скопированные с microsoftopendata.com на виртуальную машину Linux в Azure.

 

В виртуальную машину Data Science по умолчанию загружены различные средства разработки, популярные среди исследователей и практиков (рис. 3).

 

3

Рис. 3. Виртуальная машина Linux Data Science.

 

«Меня часто просят поделиться моими исследовательскими данными, и те данные, которые я уже предлагал общественности, пользовались большим спросом. Координация и каталогизация этих наборов данных в одном месте с помощью Azure будет полезна как внутренним, так и сторонним исследователям. Это облегчит доступ, будет способствовать сотрудничеству и предоставит возможность использовать богатые наборы общедоступных данных в облаке Microsoft Research».


— Джон Крамм, старший исследователь Microsoft Research AI

Наборы данных в Microsoft Research Open Data категоризированы по основной области исследований, как показано на рис. 4. Здесь можно найти ссылки на исследовательские проекты или публикации, в которых использован выбранный набор данных. Можно просматривать доступные наборы данных и загружать их на свой компьютер или копировать непосредственно в подписку Azure с помощью автоматизированного рабочего процесса. Репозиторий, насколько это возможно, отвечает самым высоким стандартам обмена информацией, обеспечивая доступность наборов данных, их совместимость и возможность многоразового использования; весь корпус не содержит никакой информации, по которой можно идентифицировать личность. Мы продолжим развивать эту платформу по мере получения отзывов от пользователей.

 

4

Рис. 4. Категории наборов данных.

 

Microsoft Research Open Data — результат работы научной программы Microsoft Research Outreach Data, достижение которого стало возможным благодаря сотрудничеству между многими командами и исследователями из Microsoft, нашими отраслевыми партнерами и научными консультантами.


Контакты
Вы можете связаться с нами любым удобным для вас способом:
Адрес:
Республика Коми
г. Сыктывкар
ул. Первомайская 70А
офис 310
Звоните по номеру:
По любым вопросом можете оставить заявку и наши специлисты помогут Вам
;