В этом году на V вузовском открытом отборочном чемпионате ИжГТУ имени М.Т. Калашникова по стандартам Worldskills появилась новая компетенция — «Машинное обучение и большие данные».
О специфике компетенции нам рассказала ее главный эксперт Ольга Владимировна Марухина, к.т.н., доцент Национального исследовательского Томского государственного университета.
— Что значит «большие данные»?
— Это очень философский вопрос, который я всегда задаю студентам. Помните: одно зерно — куча? А два? А двадцать? Конечно, в классическом понимании большие данные — это терабайты информации в секунду. Для их обработки используют коллайдеры. Здесь, на чемпионате, о таких объемах речи не идет уже потому, что нет компьютеров необходимой мощности. Но массивы информации, с которыми работают участники, тоже достаточно большие.
Ребятам предложена довольно сложная задача. Если кратко, речь идет об обработке текстовой информации, которая поступает от граждан на определенный сайт. Это замечания по проблемам ЖКХ, благоустройству и т.п. Например, прорвало трубу, появилась стая бездомных собак и т.д. Т.е. все, к чему граждане считают нужным привлечь внимание городских служб.
Сейчас в базе таких жалоб 60 тысяч. Все они представлены в виде файлов и на первом этапе участники выполняют предобработку — представляют информацию в специальном виде для того, чтобы в дальнейшем можно было с ней работать. После этого требуется выполнить обработку данных — построить модель для распознавания новых обращений (провести обучение) и в результате создать такую интеллектуальную систему, которая будет классифицировать обращения граждан и направлять ее в соответствующую службу.
Самый зрелищный момент наших соревнований — презентация системы. Участники будут презентовать полученный результат, рекламировать систему, демонстрировать ее работу. Проверка будет проходить на новых запросах: задается в предложенном формате новое обращение (например, «упал забор»), система должна принять его, классифицировать, присвоить идентификатор и сообщить, кому оно передано на исполнение. Это финальный этап, остальные выглядят не столь эффективно — просто сидит человек за компьютером, на экране цифры...
— Что в таком проекте для участия главное — математика или программирование?
— Это тоже непростой вопрос. Здесь все важно: и математика, и статистика, и программирование. Например, у себя в университете мы провели анализ результатов своих участников (в этой компетенции мы с 2018 года). Заметили, что «проседаем» по программированию, и это не дает показать высокий результат. В результате — даже немного откорректировали учебную программу.
— Как важен показатель скорости работы итоговой системы?
— В принципе главное — точность. Во всяком случае, в рамках чемпионата. Здесь важно, чтобы участник сделал выбор правильного алгоритма с учетом отведенного для выполнения задания времени. Приведу пример. Однажды была ситуация, что участник решил использовать нейросеть для создания своей системы. Нейросеть-то он построил, но отработать до конца не успел. Результата он не получил, поэтому не получил и никакой оценки.
— Компетенция достаточно новая. Уже определились лидеры среди вузов?
— Я провела несколько чемпионатов у себя, прошла путь от регионального до сертифицированного эксперта, была на чемпионатах в нескольких вузах. И могу сказать, что каждый город, каждый вуз «выстреливает» своим участником.
Развивая эту тему, скажу, что каждый город имеет свое лицо. Томск по численности почти как Ижевск, у нас очень много вузов, в том числе, два национальных исследовательских университета. Можно сказать, в городе много «научных голов», но — относительно немного заказчиков. В Ижевске картина иная. Здесь много промышленности, вы можете коллаборировать с конкретными заказчиками, брать у них конкретные данные, помогать строить интеллектуальные системы и т.п.