
【コツ徹底解説!】エクセル データ整理・クレンジングの早ワザと失敗例①|作業の設計
【コツ徹底解説!】エクセル データ整理・クレンジングの早ワザと失敗例①|作業の設計 https://biz-tips-collection.com/wp/wp-content/uploads/2018/08/shutterstock_532873330-1024x671.jpg 1024 671 Biz Tips Collection Biz Tips Collection https://biz-tips-collection.com/wp/wp-content/uploads/2018/08/shutterstock_532873330-1024x671.jpgエクセルで膨大なデータを整理しなければならないことはないだろうか。ほとんどの場合は顧客データの整理などマーケティング関連の業務だ。データ整理(データクレンジング)のゴールはデータ分析であることが多いが、きちんとしたシステム設計をしていない限りかなり雑多なデータとして蓄積されているケースが多い。現場のオペレータがメモ代わりに使っていたり、記載方法の教育が徹底されていないからだ。おそらく、この記事を見ていただいている読者はとりあえず手をつけたものの途方もない作業に気が遠くなり簡単な方法がないか模索した結果であろう。
データクレンジング業務には手戻りが必ず発生し、結果としてかなりの時間がかかる。本シリーズで紹介する内容を読み、もう一度業務の設計を見直して、少しでも早くデータ整理の呪縛から開放されて欲しい。
なお、本シリーズで説明する内容は筆者が考える最短でデータ整理をするために利用する方法論と全機能である。複雑な関数や機能を利用することで欲しいデータを作ることは可能かもしれないが頭を使ったり、試した結果できなかったりすることを考慮すると本稿で紹介した手法のみでデータクレンジングをやり遂げる気持ちで業務を遂行して欲しい。
データ整理の流れをもう一度確認
データ整理の流れは以下の通りだ。
データ項目を確認し、アプトプットイメージを作成、データ整理実施となる。
後半のデータ整理作業の実施項目が多いので、そちらに目が行きがちだ。しかし、データ項目の確認とアプトプットイメージの作成は、手戻りの発生を最小限に抑えるために非常に重要な作業となるのでしっかり行うべきであることを頭に入れて欲しい。
①まずは対象となるデータ量の確認しよう
基本的に本記事を見ていただいている方はエクセルでデータ分析を実施しようとしているだろう。エクセルでは最大で1,048,576 行× 16,384 列(2018年時点)のデータを処理可能となっている。しかし、データの切り貼りや関数の入力、複数シートを利用することを前提にすると1万行程度までが限界であることを覚えておいて欲しい。
通常のデータでは1行(レコード)に対して10~20列項目(カラム)が存在する。それに加え、データを整理したり、分析用のフラグをつけたりするバッファーとして30行ほど追加で使うことを考えると50列程度。約1万行×50列程度でエクセルが重くなるのだ。重くなるというのは具体的には計算や保存に異常に時間がかかることを指す(1分以上)。これ以上時間がかかる場合データが破損したり、計算結果・保存の反映が適切に行われているか不安が残るため利用を避けるべきだ。
なお、これ以上の膨大な計算を実施する場合はエクセルでなくアクセスなどを用いるが、アクセスを用いた分析方法の紹介はまた、別の機会に紹介するものとする。
②データ整理の目的と整理するべきデータ項目をもう一度確認しよう
データ整理の目的は基本的に分析となるはずだ。分析をする際に必要となる整理すべきデータが何であるかをしっかり認識しよう。分析は○○×○○の掛け算で行われる。例えば、男女×購買金額などだ。膨大なデータをデータ項目(カラム)で抽出(ソート)し、集計する。そのため、整理するべきデータはある程度絞られるはずだ。
データベースによっては受付IDと顧客IDが別々に采番されていたりして、氏名などが重複する顧客が非常に多くなっているものもある。仮に分析の目的が顧客属性の分布の把握であった場合、受付IDの整理は不必要な作業になるわけだ。
つまり、目的が分析であれば分析をするために必要なデータを想定し、そのデータがどういう形で表現されていれば十分か確認しよう。例えば、商品がどういう顧客に購入されているかが重要なのであれば、顧客の名前などは重要でなく、年齢や性別、家族構成などと商品がひもづいてさえいればよいのだ。
【参考】データの整理とはどういうことか?
そもそも、データ整理とどういった作業なのか?正しい形式のデータになっていれば整理はする必要はない。そのため、データとして正しい姿にするのがデータ整理といえよう。データとして正しくない姿のデータは大きく分けて3タイプ存在する。
正しいデータとは分析するために必要なデータの定義で各データが蓄積されている状態のことを指すのだ。そのため、前項で解説したように、分析をするために必要なデータを想定し、そのデータがどういう形で表現されていれば十分か確認する必要がある。
③クレンジング作業の設計
作業実施前の最後のプロセスとしてクレンジング作業の設計がある。設計をせずに、たぶん、こうすればよいだろうなという思い切りで進むと思わぬ落とし穴にはまることがある。これまでやった作業が無駄になり、場合によってはこれまでやった作業と同じ作業をするはめになることさえある。
例えば、名寄せ作業(同一人物をひとつのデータにまとめること)をすることに気を取られ、顧客IDのデータ欠損に気づかなかったとする。顧客IDをベースに名寄せ作業を開始したが、顧客IDのデータ欠損に気づき顧客IDの欠損数を調べたら8割が欠損していた。結局、性別と年齢と住所を元に名寄せ作業をするしかなくなった。こういった失敗例はよく存在する。
そのためにオススメしたい作業の進め方は2つ。「データの不備の把握・整理の順序決定」と「小まめなデータ保存」だ。クレンジング作業の設計はこの二つで構成される。
・データの不備の把握・整理の順序決定
②データ整理の目的と整理するべきデータ項目をもう一度確認しようで絞った整理する対象を決定した上で、それぞれのデータにどのような不備が存在しするか確認する。その上で、データの不備の修正作業がどのように他のデータに影響を及ぼすかを検討し、整理する順序を決定する。これにより基本的に失敗しないデータの整理方法が明らかになるはずだ。
なお、「データの不備の把握・整理の順序決定」は必ず資料化しよう。どんなに作業の設計をしたとしても新たな不備の形がでてくる可能性がある。システムの入力できちんとした設計がされていない限り完璧なデータにするのは非常に骨が折れる。「こういうデータ不備がメインだったので、こういう処理でデータを整理しました。」という資料があり、それを上司などと握れていれば、基本的に手戻り作業は発生しない。上司も完璧を求めることが生産性の観点から不要であることを認知することが出来るからだ。
・小まめなデータ保存
ひとつの資料を上書きしていく形で作業を進めるのはとても危険だ。想定していなかった大きな不備が発見されたり、データが重くなりファイルが壊れる可能性もある。出来れば作業ごとに新しいファイルを作成していくのが理想であるが、3作業ごとを目安に新しいファイルを作成していくルールで作業しても良いだろう。その際、何の作業をしたかわかるようにファイルを命名するとよりわかりやすい。
データクレンジングでは作業の設計が重要!
これまで解説したように、データ整理はデータの把握と作業の設計が肝だ。手戻りしたり、上司からつき返されたタイミングでせっかく作業した内容が無駄になる。きちんと作業の設計をして上司と作業手順を握ろう。
次回は【参考】データの整理とはどういうことか?で解説した欠損例に応じた具体的な作業方法について解説する。具体的な作業は以下のようなプロセスで進むだろう。
冒頭に述べたとおり、複雑な関数や機能を利用することは必ずしも最短・精緻なデータを作ることに適していない。本稿で説明した内容をしっかりした上で、次回説明する手法のみで作業を完了させることを心がけてほしい。
次回は「【コツ徹底解説!】エクセル データ整理・クレンジングの早ワザと失敗例②|整理方法」で確認可能だ。