• 正確な予測モデルを構築するには、高品質のデータが必要
  • 特徴抽出処理は、予測モデルをより有効なものに改善するために行われます
  • 情報を有意義なものに変換したり、情報を分かりやすいものに置き換えたりします

 

品質の高いデータの重要性

正確な予測モデルを構築するためには品質の高いデータが不可欠ですが、データの送受信時に内容が欠けてしまったり単純な入力ミスによって、低品質のデータが含まれる事がほとんどです。

そのような低品質のデータによって、予測モデルの性能が悪化するのを防ぐために、データを修正する必要が出て来ます。

機械学習を行う時は使用するデータの中身を検査して、必要であれば修正しなくてはなりません。

 

適切なデータに変換する特徴抽出処理

一つのデータに複数の情報が含まれる場合、全ての情報が必要な情報とは限りません。
そのようなデータの中から必要な情報内容だけを取り出したり、有意義な情報に置き換えたりするのが特徴抽出処理です。

特徴抽出処理を行う事で、機械学習で扱う予測モデルの内容をより有効なものに改善する事が出来ます。

 

 

 

特徴抽出処理の具体的な内容

意味のない情報を有効な情報に変更
破損した情報が含まれる場合などは、適切な情報に置き換える

非線形変換
より数値の特徴が分かりやすくなるように、数値をグループによって表す

情報の内容に応じた処理を施す
個別の情報の特徴に応じた処理をする

適切な特徴抽出処理を選ぶためには、データの内容を十分に理解しておかなくてはなりません。

 

 

 

本サイト上に掲載されているまとめ記事が、毎週ステップメールで受け取ることもできます。

 

 

参考文献