¬аше окно в мир —јѕ–
 
Ќовости —татьи јвторы —обыти€ ¬акансии Ёнциклопеди€ –екламодател€м
—татьи

27 сент€бр€ 2012

—татистика на службе у аналитиков и критический взгл€д на исследовани€ —јѕ– рынка

Ќиколай —нытниковЌиколай —нытников

ќт главного редактора isicad.ru: Ёта заметка Ќикола€ —нытникова стала результатом июльской публикации статьи «Cyon Research сопоставл€ет российские и мировые тенденции в использовании —јѕ–» и последовавшей за ней гор€чей дискуссии, в которой подвергалась сомнению (если не сказать — осме€нию) статистическа€ обоснованность выводов, основанных, как были уверены некоторые дискутанты, на смехотворно малых выборках. “огда, в июле, € обещал, что этим сомнени€м будет противопоставлен не только сам по себе авторитет президента Cyon Research Ѕрэда ’ольца, но и некий содержательный комментарий.

“акой комментарий особенно полезен сегодн€, за неделю до того, как в ћоскве, на Autodesk University –осси€, с новыми данными своего анализа выступит сам Ѕрэд ’ольц (3 окт€бр€, 14:30-14:55, зал 11 « руглые столы», —вежий взгл€д на рынок CAD/CAE/PLM/BIM, Brad Holtz, Cyon Research). јвтор комментари€, Ќиколай —нытников, непосредственно вслед за выступлением Ѕрэда ’ольца (там же, 15:00 — 16:25) от имени компании Ћ≈ƒј— и портала isicad.ru, возможно, вместе с Ѕрэдом ’ольцем, проведет  –”√Ћџ… —“ќЋ «—опоставление мировых и российских тенденций рынка —јѕ–: исследование Cyon Research и экспертиза isicad.ru».

«≈сть три вида лжи: ложь, нагла€ ложь и статистика», — это высказывание, приписываемое Ѕ. ƒизраэли, премьер-министру ¬еликобритании, и ставшее знаменитым благодар€ ћарку “вену, указывает, в общем-то, на пон€тный феномен — неправильна€ интерпретаци€ сухих статистических данных чревата не только неверными выводами, но и опасной иллюзией их строгой математической обоснованности.

”вы, и сто лет спуст€ репутаци€ прикладной статистики в глазах обывател€ не сильно изменилась. ѕричин тому несколько — многие исследовани€ делаютс€ непрофессионально, другие, наоборот, весьма профессионально «подгон€ют» данные под желаемые результаты, а третьи неверно понимаютс€ не совсем компетентным читателем.

Ќеудивительно, что по этим и другим историческим причинам многие наши граждане, экстраполиру€ свой неудачный опыт, склонны подозревать наличие махинаций и попыток «одурачивани€» даже в совершенно безобидных аналитических публикаци€х лишь на том основании, что в них используютс€ статистические методы и реальные данные.

¬ообще говор€, во многих профессиональных кругах критическое отношение к публикуемым материалам гор€чо приветствуетс€. ќднако при этом подразумеваетс€, что критика должна быть конструктивной, методологически верной и основыватьс€ на научном анализе, а не на «здравом смысле», который, по словам еще одного классика, иногда €вл€етс€ лишь набором предрассудков, приобретаемых до 18-летнего возраста.

”читыва€ все эти соображени€, легко пон€ть, почему значительна€ часть читателей, ознакомившись со статьей «Cyon Research сопоставл€ет...», отнеслась к ее выводам с некоторой долей недовери€ или даже воинствующего скептицизма, между делом обнаружив ритуально-магический смысл в числе 69.

EinsteinTwain

јльберт Ёйнштейн и ћарк “вен насто€тельно рекомендуют аккуратно относитьс€ к цифрам и
критически оценивать аргументацию здравого смысла

 онечно же, некотора€ вина здесь лежит и на авторах соответствующей публикации, недостаточно подробно разъ€снивших методологические основы исследовани€. ћы постараемс€ ликвидировать этот пробел: сначала рассмотрим пару типичных проблем организации опросов, хорошо известных любому практикующему социологу или маркетологу, а затем приведем некоторые по€снени€ Ѕрэда ’ольца, скомпилированные редакцией isicad в формат ответов на часто задаваемые вопросы.

–азмер имеет значение?

 акого размера выборку необходимо вз€ть дл€ адекватной оценки параметров распределени€?
»нтересно, что уже на этом месте бытова€ интуици€ и логика нередко начинает давать сбои даже у технарей с научными степен€ми. „тобы хорошо представл€ть себе величины, о которых идет речь, полезно решить следующую задачу.

«адача. ѕусть имеетс€ генеральна€ совокупность всех российских пользователей —јѕ–. »з нее случайно выбрали N пользователей. ¬ы€снилось, что одна треть пользователей из выборки используют систему X (где X — это, скажем, Autodesk Inventor, T-Flex CAD,  ќћѕј—, или даже SolidWorks). Ќеобходимо с надежностью 0.95 найти доверительный интервал дл€ доли системы X на рынке.
“ребуетс€ дать ответ дл€ трех различных N: ј) 69, Ѕ) 357 ¬) 670

ѕоскольку задача довольно типична дл€ стандартного курса «тервера и матстата», то, опуска€ формулы и ссылки на использование ÷ѕ“, биномиального распределени€ или функции Ћапласа, выпишем сразу ответ:

(ј) [0.233, 0.45],
(Ѕ) [0.286, 0.383],
(¬) [0.3, 0.37].

¬идно, что процесс неумолимо сходитс€, и уже дл€ 357 респондентов погрешность укладываетс€ в 5%. ƒл€ проверки ответа вполне можно поставить эксперимент в домашних услови€х, подкидыва€ монету или игральную кость (хот€, если вы соратник ѕерси ƒиакониса, то результаты могут оказатьс€ не в пользу теории веро€тностей).

  сожалению, обратна€ задача — определить объем выборки дл€ предсто€щего исследовани€ — €вл€етс€ более сложной и подразумевает введение некоторых гипотез об искомых параметрах неизвестного распределени€. — одной стороны, в качестве начального приближени€ можно было бы исходить из оценки: дл€ 10-процентной погрешности требуетс€ 100 случайных респондентов, дл€ 5-процентной — 400, а дл€ 3-процентной — 1000. — другой стороны, чисто статистические оценки погрешности на практике не всегда полезны, поскольку обеспечить случайность выборки очень трудно, а ошибки, которые внос€тс€ этой «неслучайностью», не уменьшаютс€ с увеличением числа неслучайных респондентов.

 ороче говор€: чтобы увеличивать размеры выборки до тыс€чи и более — нужны очень веские аргументы.

ћатстатистика иногда бесполезна?

¬ это будет трудно поверить некоторым математикам и инженерам, однако методы матстатистики €вл€ютс€ далеко не единственным инструментом социологических или маркетинговых исследований. Ёкспертные опросы, интервьюирование, контент-анализ, фокус-группы и многое другое разработано специально дл€ качественного анализа — вы€влени€ тенденций, закономерностей, генерации гипотез. ќни могут требовать привлечени€ гораздо меньшего количества респондентов, а жанр самих исследований подразумевать более свободную форму ответа, чем того требует матстатистика. ¬едь далеко не все интересные задачи могут быть сформулированы в виде: «кака€ —јѕ– используетс€ в данный момент» или «за кого будете голосовать на предсто€щих выборах».

Ќапример, дл€ исследовани€ тенденций развити€ инженерного софтвера могло бы оказатьс€ более полезным плотно побеседовать с несколькими дес€тками посетителей COFES и несколькими руководител€ми крупных поставщиков PLM, чем опрашивать тыс€чу среднестатистических инженеров. ’от€ это и дискуссионный вопрос.

„то важнее размера?

«ј как была сформирована выборка?  ак формировались вопросы?» — об€зательно поинтересуетс€ специалист по соц. опросам еще до того как услышит про размеры. »нтересное наблюдение: многие студенты-социологи, сумевшие доучитьс€ до четвертого курса, могут путатьс€ в базовых пон€ти€х матожидани€ или дисперсии, однако при этом твердо знают — ключом к успеху €вл€етс€ грамотный дизайн исследовани€. «десь важно и формирование выборки (кого и где опрашивать?), и состав самих вопросов (что спрашивать?) и последующа€ обработка результатов. ¬едь если собирать статистику о распределении рынка между разными —јѕ– и проводить опрос на интернет-форуме сообщества пользователей SolidWorks, то едва ли стоит наде€тьс€ на объективный результат. “ак же как и вр€д ли стоит оценивать политические пристрасти€ всех граждан –оссии на основе мнени€ посетителей блога какого-нибудь матерого оппозиционного борца с коррупцией.

ќдин из известных исторических примеров такого фиаско — это опрос, проведенный журналом Literary Digest перед президентскими выборами 1936 года в —Ўј. ѕри количестве респондентов в 2.5 миллиона человек итогова€ ошибка составила 20%. ƒело в том, что сотрудники журнала разослали анкеты по телефонному справочнику, не учт€, что счастливыми обладател€ми телефонов были обеспеченные граждане, традиционно голосующие за республиканцев. ”дивительно, но опросив всего лишь 50 случайных человек с улицы, журнал мог бы добитьс€ большей точности результатов!

¬ 1936 году победили –узвельт и демократи€. ј статистика совершенно незаслуженно приобрела еще одно п€тно на репутации.

¬ общем, вооружившись этими довольно простыми соображени€ми, можно теперь перейти к более детальному разъ€снению методологии.

ћетодологи€: вопросы и ответы

ћожно ли считать, что 69 — это репрезентативна€ выборка? ј 357 или 690?

“ака€ постановка не совсем корректна. ќтвет зависит от того, какую цель преследует исследование, как став€тс€ вопросы, как сформирована выборка. ≈сли говорить о вопросе, подразумевающем строгий ответ, то, чтобы вычислить определенные средние показатели с погрешностью в 5% требуетс€ случайна€ выборка из примерно 400 респондентов. ¬ конкретной статье общее количество респондентов в мире составл€ло 670, в —Ўј — 357 и в –оссии — 69. √рубо говор€, если бы по этой выборке определ€лась статистическа€ значимость некоторых показателей, то размер выборки данных дл€ —Ўј и дл€ всего мира можно считать достаточным, а дл€ –оссии ошибка была бы около 10%.

ќднако указанные статистические оценки к данному исследованию в €вном виде не применимы:

  • во-первых, оно не ставило целью установить статистические значимости,
  • во-вторых, не оперировало со случайной выборкой,
  • и, наконец, 69 российских респондентов не рассматривались в отрыве от всей выборки, а только в контексте анализа коррел€ций российских данных с мировыми. ƒл€ подобного анализа достаточно и гораздо меньшего количества респондентов.

ћожет быть, дл€ повышени€ репрезентативности исследовани€ надо договоритьс€ с каким-нибудь предпри€тием, чтобы все его инженеры заполнили анкету?

Ёто не просто бессмысленно, но и вредно. ќтветы инженеров будут, скорее всего, основыватьс€ на специфике одного конкретного предпри€ти€. ¬ результате оцениваемые показатели будут сильно смещены.

явл€етс€ ли выборка исследовани€ случайной?

¬ыборка проводилась с помощью рассылок по клиентским базам и публикаций объ€влений на профильных сайтах. “ака€ выборка не €вл€етс€ случайной хот€ бы на том основании, что анкеты заполн€ет наиболее активна€ часть всех потенциальных респондентов.

ѕоэтому половина вопросов из анкеты была посв€щена тому, чтобы лучше пон€ть, кто €вл€етс€ респондентом, чтобы в дальнейшем можно было применить подход€щий коррел€ционный анализ. Ќапример, один вопрос был о том, какое ѕќ используетс€. “от факт, что было больше респондентов, использующих Inventor, чем Solid Edge, ровным счетом ничего не говорит об относительной доле на рынке каждой из систем. Ёто означает, что было больше данных о пользовател€х Inventor, чем о пользовател€х Solid Edge, и что можно отфильтровать первых на большем уровне детализации, чем вторых.

 акую цель ставило перед собой исследование?

√лавной задачей была идентификаци€ коррел€ций в данных, которые могут выгл€деть интересно, и которые могут дать некоторое практическое понимание и догадки о сути происход€щего в пользовательских сообществах. ќбнаружение этих коррел€ций €вл€етс€ первым шагом в процессе исследовани€.

явл€етс€ ли эта коррел€ци€ интересной, и дает ли она какие-либо про€снени€? ≈сли это так, то на следующих этапах будет определено, не €вл€етс€ ли эта коррел€ци€ каким-либо артефактом из-за специфического среза выборки респондентов.

Ќапример, можно обнаружить предварительную информацию, показывающую, что директора организаций отвечают не так, как ожидалось. ¬ полученных данных большинство директоров руковод€т маленькими фирмами. “аким образом, первым делом необходимо идентифицировать, относитс€ ли коррел€ци€ к размеру фирмы, а затем определить, что вносит главный вклад в коррел€цию — размер фирмы, роль или оба этих параметра.

 ак только находитс€ интересна€ коррел€ци€, котора€ не €вл€етс€ артефактом данных, то анализируетс€ ее смысл. ”крепл€ет ли она ожидани€ или противоречит интуиции?  акие у нее могут быть причины? »ли, что более важно, какие у нее следстви€? ≈сли есть значимые следстви€, имеющие практическое значение, то имеет смысл запустить следующую стадию исследовани€, подразумевающую интервьюирование участников и более глубокое понимание результатов на качественном уровне.

—ледующий этап исследований?

3 окт€бр€ в ћоскве в рамках Autodesk University Ѕрэд ’ольц представит новый этап исследовани€ Cyon Research. —разу же за ним пройдет  руглый —тол, на котором можно будет обсудить весь спектр вопросов: есть ли у –оссии свой собственный путь, каково общемировое состо€ние рынка —јѕ– и, конечно же, в какую сторону мы движемс€.
Holtz

ƒобавить комментарий

„итайте также:


¬акансии:

јктуальное обсуждение

RSS-лента комментариев

ƒавид Ћевин
ƒавид Ћевин
ќт редактора: —емь советов молодым инженерам
ѕроект ЂЌародное —јѕ–-интервьюї

—лучайна€ стать€:

isicad Top 10

—амые попул€рные материалы

   ‘орумы isicad:

isicad-2010 isicad-2008
isicad-2006 isicad-2004

ќ проекте

ѕриглашаем публиковать на сайте isicad.ru новости и пресс-релизы о новых решени€х и продуктах, о проводимых меропри€ти€х и другую информацию. јдрес дл€ корреспонденции - info@isicad.ru

ѕроект isicad нацелен на

  • укрепление контактов между разработчиками, поставщиками и потребител€ми промышленных решений в област€х PLM и ERP...
ѕодробнее

»нформаци€ дл€ рекламодателей


¬се права защищены. © 2004-2019 √руппа компаний «Ћ≈ƒј—»

ѕерепечатка материалов сайта допускаетс€ с согласи€ редакции, ссылка на isicad.ru об€зательна.
¬ы можете обратитьс€ к нам по адресу info@isicad.ru.