Дэвид Шпигельхалтер

  • Андрей Пилипенкоfez uma citaçãohá 2 anos
    Цикл PPDAC (Problem, Plan, Data, Analysis, Conclusion) был предложен как модель решения проблем, которую мы будем использовать в этой книге[17].
  • Андрей Пилипенкоfez uma citaçãohá 2 anos
    В этой главе мы рассмотрим методы, разработанные в последующем столетии для получения сводной информации из имеющейся массы данных. Мы увидим, что числовые характеристики выборки (показатели положения, распространения, разброса, тренды и корреляция) тесно связаны со способом их представления на бумаге или экране.
  • Heyder Quliyevfez uma citaçãohá 2 anos
    Если мы прогнозируем какую-нибудь числовую величину (например, температуру завтра в полдень в определенном месте), то точность прогноза обычно характеризуется ошибкой – разностью между предсказанной и реальной температурой. В отношении нескольких дней, как правило, вычисляют среднеквадратичную ошибку (MSE) – среднее значение квадратов отдельных ошибок; это
  • Heyder Quliyevfez uma citaçãohá 2 anos
    Если мы прогнозируем какую-нибудь числовую величину (например, температуру завтра в полдень в определенном месте), то точность прогноза обычно характеризуется ошибкой – разностью между предсказанной и реальной температурой. В отношении нескольких дней, как правило, вычисляют среднеквадратичную ошибку (MSE) – среднее значение квадратов отдельных ошибок; это аналог критерия наименьших квадратов, используемый в регрессионном анализе.
  • Heyder Quliyevfez uma citaçãohá 2 anos
    Переобучение происходит, когда мы заходим слишком далеко в стремлении приспособиться к локальным обстоятельствам, в благородном, но ложном порыве устранить смещение и учесть всю имеющуюся информацию
  • Heyder Quliyevfez uma citaçãohá 2 anos
    Например, стандартная процедура построения дерева классификации – сначала сконструировать очень сложное дерево со множеством ветвей, намеренно сделав его переобученным, а затем обрезать дерево до чего-то более простого и надежного. Такая обрезка контролируется параметром сложности, который можно выбирать с помощью процедуры перекрестной проверки.
  • Heyder Quliyevfez uma citaçãohá 2 anos
    Это следствие центральной предельной теоремы, которая гласит, что распределение выборочных средних по мере увеличения размера выборки сходится к нормальному распределению – практически вне зависимости от формы исходного распределения данных.
  • Heyder Quliyevfez uma citaçãohá 2 anos
    доверительный интервал – это тот диапазон параметров генеральной совокупности, при котором наша наблюдаемая статистика будет правдоподобным следствием.
  • Heyder Quliyevfez uma citaçãohá 2 anos
    Ранее для описания способности видеть закономерности и связи там, где их не существует, мы использовали термин апофения;
  • Heyder Quliyevfez uma citaçãohá 2 anos
    Нам нужна мера, характеризующая, насколько близко к центру лежит наблюдаемое значение, и одна из таких характеристик – это площадь хвоста распределения. Например, площадь части фигуры, расположенной справа от вертикальной пунктирной линии, составляет 0,45, или 45 %.
fb2epub
Arraste e solte seus arquivos (não mais do que 5 por vez)