このレポートは、フランクリンコビーのリーダー診断の心理測定特性と検証レポートを提供します。診断では、リーダーシップに関連する総合的なスキルを評価します。各スキルは、観察可能な行動を捉えた項目で評価されます。このレポートの時点(2023年10月)では、診断はフランクリンコビーのコースに参加する前と参加した後の360人の評価として採用されています。180の評価版が開発中です。
リーダー(360)診断テクニカルレポートの全文をダウンロードする
評価を検証するには、心理測定と呼ばれることもあります。
検証プロセスは、業界によっては標準化できます。しかし、多くの場合、検証基準はいくつかあり、その中には他の基準よりも重要なものがあると言った方が正確ですが、一般的には、評価が満たす検証基準が多ければ多いほど良いでしょう。
評価を販売する多くの組織は、何らかの検証を行っています。主に評価に焦点を当てている組織は、作成したすべての評価を検証することがあります。KornFerryやGallupのように、評価を事業の一部としている他の組織も、最も人気のある評価について広範な検証/技術レポートを発行し、それらのレポートを定期的に新しいデータで更新したり、評価の変更を文書化したりしています。
当然のことながら、多くのお客様から、フランクリンコビーの評価でどのような検証作業を行ったかを尋ねてきました。
これは約15ページのレポートで、サイコメトリクスの2つの分野に焦点を当てました。
- 診断の信頼性。たとえば、1週間後に評価を受けたときにスコアがどの程度似ているかなどです。
- 診断の妥当性-たとえば、スコアが職場のエンゲージメントや仕事の満足度をどの程度予測できるかなどです。これは通常、検証プロセスの中で最も影響の大きい部分です。評価は信頼できるものですが、あまり予測できなければ、あまり価値がありません。あなたがどのディズニーキャラクターであるかを示すバズフィードクイズは、理論的には他の基準に当てはまる可能性がありますが、ディズニーキャラクターの好み以外を予測するのはおそらく得意ではありません。
合計で、23年度版の診断からの約2万件の回答を分析し、1,000人以上のリーダーに自分自身を評価してもらい、500人以上の直属部下に24年度版の診断でリーダーを評価してもらいました。
Diagnosticは、正規分布の応答、複数の信頼性、複数の妥当性など、いくつかの検証基準で一般に認められている基準を満たしており、場合によってはこれらの基準で非常にうまく機能します。
主な発見は、診断でリーダーを高く評価することと、エンゲージメント、仕事の満足度、組織に留まりたいという意志など、多くの素晴らしい結果との間には非常に強い関係があるということです。リーダーシップに関するトップクラスの学問的評価に匹敵する人間関係。
はい。レポートは次の検証基準をカバーしています。
- 内部の一貫性
- 評価者間の信頼性
- 異なる評価者タイプ(例えば、自己評価者、マネージャー評価者、直属部下評価者)
- 評価者の種類内(たとえば、360で同じマネージャーを評価した直属部下は、そのマネージャーの評価方法に関して互いに一貫性を示していますか)
- 信頼性をテスト/再テストします
- 因子構造(つまり、診断は多次元の尺度ですか)
- 収束的妥当性(つまり、診断が他の検証済みのリーダーシップの尺度に関連しているかどうか)
- 自己評価データに基づいています
- そして、直属の報告者データに基づいています
- 基準/同時有効性(つまり、診断は、エンゲージメント、仕事の満足度、マネージャーの有効性に対する認識など、予測したい結果に関連していますか)
- 回答者の人口統計(年齢、性同一性など)、チームや組織の変数(組織の規模、リモートワークの状況など)に基づく診断スコアの違い
24年度版のDiagnosticsはより短く、回答が正規分布していなかった質問や他の質問との相関が高すぎる質問を更新しました(重複していることが示唆されています)。これらの段階的な改善により、より信頼性が高く有効な診断が可能になります。
新しい質問を決定するために私たちが頼りにしたテストは基本的に2種類ありました。
まず、代替または追加として使用できる可能性のある多くの質問から始めます。その後、回答者に対して簡単なテストを何度も行い、いくつかの基準でより適切な質問を見つけます。私たちが探しているのは、回答の範囲が広く、できればスコアの正規分布の質問です。また、質問と相関させたい概念と強い相関関係がある質問を探しています。たとえば、リーダーの有効性を測る他の尺度などです。このプロセスにより、私たちはほぼ最後の一連の質問にたどり着きました。
プロセスの次のステップはさらに複雑です。そして、それがテクニカルレポートに詳述されている検証作業です。
24年度版の診断では、回答尺度のラベルを専門知識(1-初心者、4-熟練者、7人)から頻度(1-なし、7-常時)に変更しました。注意、目盛は1〜7ポイントのスケールです。
この変更にはいくつかの理由があります。
- 頻度スケールは、行動と行動の変化を測定することを目的とした評価で標準で期待されるものとより一致しています。
- 何人かの回答者やクライアントから、専門知識の尺度を理解したり定義したりするのが難しいとコメントしています(私たちが提供する初心者、熟練者、専門家の定義があっても)。周波数スケールは、評価者間でより一貫して解釈されます。そして、回答者やクライアントに理解されやすくなります。
- 回答者に表示される応答スケールのラベル(専門知識と頻度)を変えるいくつかのテストと実験を行ったところ、スケールラベルが欠損データの選択と「評価できない」の選択に影響することがわかりました。具体的には、専門知識尺度で評価する場合、周波数尺度よりも評価者が評価をスキップしたり、「評価できない」を選択したりする傾向がはるかに高くなります。したがって、新しい周波数スケールにより、360の評価者からより完全なデータが得られると予想しています。
360を検証するには追加の手順があります。そのうちの2人は、評価者のタイプ間の一貫性/信頼性を調べています。これは基本的に、自己評価がマネージャーの評価、同僚の評価などと一致するかどうかの尺度です。職場の360は、評価者のタイプがあまり重複していないことを示しています。しかし、評価者のタイプ間には、業界で期待されていることと一致する重複が見られます。この調査結果を解釈する最良の方法は、私たちの360は、学習者が他の評価者の評価がどのように違うかを知る機会をたくさん提供しているということです。
360度評価を検証するためのもう1つのステップは、あるタイプの評価者における一貫性/信頼性を調べることです(たとえば、直属部下が同じマネージャーを評価しても、その格付けは十分に一貫していますか?)。直属部下とマネージャー評価者の両方からの既存のFC 360データを調べました。ここでは、評価タイプの一貫性が、最も人気のあるリーダーシップ評価のいくつかと似ていることがわかりました。
これら両方の信頼性の詳細は、テクニカルレポートの「評価者間の信頼性」セクションにあります。
テクニカルレポートはリーダー診断に焦点を当てていますが、信頼性と妥当性の基準の一部は個人寄稿者版に関連しています。特に、個人の有効性とウィニングカルチャーのカテゴリーの内部一貫性とテストと再テストの指標(テクニカルレポートの表2と4に表示)は、ICバージョンを構成するこれらのセクションが信頼できることを示唆しています。さらに、これら2つのカテゴリは、このレポートに詳述されているすべての収束変数と基準変数のすべてと統計的に有意な関係を示しました。これらの統計はテクニカルレポートにはありませんが、リクエストに応じて入手できます。
私たちの検証テストは米国のみで、英語で行われました。ほとんどの場合、検証は1つの国と言語で始まり、異文化間の検証が必要な場合は、後で追加の調査を経て行われます。
また、評価が文化を超えて有効かどうかと、単に文化によって違いがあるかどうかには重要な違いがあることにも気付きました。たとえば、米国ベースのデータには人口統計上の違いがあります。人種/民族に基づくものもあれば、リモートワークの状況に基づくものもあります。これらはグループ間の違いです。しかし、グループに関係なく、診断スコアはエンゲージメントや仕事の満足度などの結果を予測します。それが評価の妥当性を物語っています。
とはいえ、診断の異文化間研究を行うとしたら、それは将来公開され、テクニカルレポートの改訂版に追加される可能性があります。
私たちの検証作業は、製品チームのAlex O'Connorが主導しました。彼は研究心理学の博士号を持ち、心理測定学の訓練を受けており、以前に学術雑誌に検証済みの評価を発表したことがあります。
私たちの検証作業は、外部の専門家であるJoshua Eng博士によってサポートされました。彼はインディアナ大学医学部の教員です。彼は全国の外科研修医の学習と健康の成果を測定する評価の検証を担当しており、心理測定医として数十年の経験があります。
コメント
0件のコメント
記事コメントは受け付けていません。