データ正規化?データマイニングではかなり重要です。特徴を標準化するのに役立ちます。機械学習アルゴリズムがより良く機能するようになります。人々が使用する主要な方法はいくつかあります。



Min-Maxスケーリングはその一つです。データを固定範囲に圧縮します。通常は0から1までです。関係性を維持します。素晴らしいトリックです。

Z-スコア標準化はもう一つです。かっこいい名前ですね?これは平均と偏差についてのことです。正規分布に適しています、私はそう思います。

対数変換。これは歪んだデータのためのものです。より正規分布に見えるようにします。広範囲や指数的なものに役立ちます。

堅牢なスケーリング。難しそうですね。実際、その通りです。中央値と四分位数を使用します。外れ値に簡単に影響されることはありません。

これらの技術?データマイニング全般で使用されています。アルゴリズムは正規化されたデータが大好きです。ニューラルネットワーク、k近傍法 - それらはそれを食べ尽くします。

パフォーマンスだけではありません。正規化されたデータは理解しやすくなります。機能の比較が簡単になります。モデルの係数はより意味を持ちます。

より速い収束についても何かがあります。勾配降下法は、どうやらより効果的に機能します。トレーニングがより安定します。

そして、混合データがあるときはどうですか?異なるスケール、異なる単位?正規化はすべてを一緒にまとめます。比較を公平にします。

だから、データマイナーはこれらの技術を使用します。彼らはデータセットを準備します。モデルはより良く機能します。洞察はより信頼性が高くなります。すべてはゲームの一部です。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)