データクレンジングの手法を解説、どうすれば価値あるデータとなるのか
- ありがとうございます!
- いいね!した記事一覧をみる
データクレンジングとは何か?
最初に本稿のテーマである「データクレンジング」という言葉について説明します。クレンジング(cleansing)とは、「清潔にする、洗い清める、浄化する」などを意味する動詞“cleanse”の名詞形で、「洗浄、浄化」などと訳されます。「データクレンジング」という場合は、「データをきれいにする」という意味になります。
きれいにしないといけないということは、データは「汚れがち」ということです。では、なぜ・どのように汚れてしまうでしょうか。
分かりやすい例として「名刺管理システム」を考えてみましょう。営業担当者が、名詞を見て手入力するタイプのシステムです。
同じ会社名でも、ある人は「株式会社ABC商事」と入力するかもしれません。別の人は「(株)ABC商事」と入力するかもしれません。担当者名も「大沢」と入力する人もいれば「大澤」と入力する人もいます。アルファベットや数字を全角で入力する人も、半角で入力する人もいます。住所を「1丁目2番地3号」と入力する人もいれば、「1-2-3」と入力する人もいます。中には入力ミスをする人もいます。
気の利いたシステムであれば、ある程度はシステム側で整えてくれるかもしれません。しかし限界はあります。「株式会社」と「(株)」は同一視してくれても、「大沢」と「大澤」では別物とみなすのが普通でしょう。「大沢仁史」さんと「大澤仁史」さんは本当は同一人物なのに、別の人物とみなされて検索結果がおかしくなることが起こりえます。
ですので、通常は入力ルールを設けて統一化を図ります。しかし、なかなか守られるものではありません。
仮に完璧に守られたとしましょう。それでも部門ごとに別々の名刺管理システムを使っていたとしたらどうでしょうか(よくあることです)。同じ入力ルールを採用していれば問題ありませんが、そのようなことはあまり期待できません。
それぞれが別のシステムを使っていたら、さらに他の問題も起こりえます。ある部門のシステムは、性別は「男」、「女」と表していました。ところが別の部門のシステムは、性別を男なら「1」、女なら「2」として表していました。この2部門のデータを単純にマージ したら、性別は「男、女、1、2」の4種類あることになってしまいます。
このように企業の持っているデータは汚れがちであり、半角/全角、大文字/小文字、表記方法、誤字脱字などを適宜修正する必要があります。この修正作業を「データクレンジング」と言うのです。
・データクレンジングの必要性
・データクレンジングの手順
・データが企業競争力の源泉となる時代に
今すぐビジネス+IT会員にご登録ください。
すべて無料!今日から使える、仕事に役立つ情報満載!
-
ここでしか見られない
2万本超のオリジナル記事・動画・資料が見放題!
-
完全無料
登録料・月額料なし、完全無料で使い放題!
-
トレンドを聞いて学ぶ
年間1000本超の厳選セミナーに参加し放題!
-
興味関心のみ厳選
トピック(タグ)をフォローして自動収集!