Давно хочу написать про недооценённые и не всегда очевидные профессии на рынке данных, они как бы есть, но им часто названий нет и им не учат։
Специалисты по поиску данных нет точного названия этой деятельности, самое близкое data discovery и можно было бы назвать профессию data discoverer. Это те кто ищут данные, общедоступные, или из коммерческих источников, или во внутренних базах данных, но главное что ищут и находят. В реальности этим занимаются дата аналитики, дата сайентисты, дата инженеры, это довольно частая деятельность, очень и очень редко отчуждаемая от других задач. Чаще всего это задача для дата-аналитиков пишущих ТЗ для остальных. Этому почти не учат, этого нет как образовательной дисциплины .
Специалисты по документированию данных ближе всего к ним по функциям и задачам те кто занимаются документированием ПО. У описания данных есть свои особенности, отдельные инструменты вроде каталогов корпоративных данных и профессию можно было бы назвать Data Technical Writer или Data Documentation Specialist. Многие воспринимают документирование, что ПО, что данных, что технических продуктов как очень un-sexy профессию. Знания нужны как у специалиста по базам данных или дата инженера, а понимание ценности такой работы есть не у всех работодателей и команд. Но эта работа особенно важна для любых дата продуктов, когда ты создаёшь открытые данные или коммерческие на продажу, их надо хорошо и правильно описывать.
Специалисты по производству данных здесь я теряюсь как правильно их назвать․ Data producers? Data creators? Data workers? Есть те кто изначально создаёт данные, реже руками, чаще при проектировании их сбора, автоматизированно или автоматически. Это одна из важнейших и плохо описанных и понимаемых профессий во многих областях. Очень часто из-за недооценённости правильного проектирования сбора данных проекты по машинному обучению не взлетают или дают сомнительные и спорные результаты, потому что обучающая выборка оказывается очень субъективной. Об этом часто можно прочитать в обсуждениях моделей распознаваний, например, лиц которые обучали на ограниченных данных только одной расы и они плохо работают на остальных.
Это не полный список недооценённых профессий. Не все могут, хотят и становятся дата-сайентистами, дата-аналитиками или дата-инженерами, внутри команд по работе с данными есть разные потребности и задачи.
#data #thoughts #professions
-- Ivan Begtin