02. Excelから入るデータ整備
2.1. 構造化データのイメージづくり
このページは『超入門・はじめてのAI・データサイエンス』(培風館)の第2章に対応しています。
構造化データとは,行と列からなるデータのことです。構造化データ以外のすべてのデータは,非構造化データです。
非構造化データには,画像,音声,文字,映像など様々なものがあります。Excelから構造化データに慣れていきましょう。
2.2. Excelにおけるデータ入力と計算機としての使い方
Excelの1つのファイルをワークブックといいます。ワークブックは, ページのようにみえるワークシートから構成されています。
シート見出しをクリックして他のワークシートを選択したり,シート見出しにあるプラス印をクリックして新しいワークシートを追加したりできます。
また,シート見出しを右クリックしてワークシートを削除したり, コピーしたりすることができます。シート見出しをドラッグして,ワークシートの位置を移動することができます。
入力は,セルに直接か,数式バーに内容を打ち込み,WindowsはEnterキー,MacはReturnキーで入力します。
2.3. 値の型と表現形式
セルは結合しないこと,数値データは数値で入力すべきことなど,総務省が公表した統計表における機械判読可能なデータの表記方法の統一ルールはこちらです。
2.4. Excelにおけるデータ操作
2.4.1 列の挿入,フィルハンドルを使ったオートフィル
下の動画では,Excelにおけるワークシートのコピーと移動,エラーインジケータ,列の挿入,セル内の文字配置,太字,フィルハンドルを使ったオートフィル,ファイルの保存について紹介しています。
なお,今から皆さんに作成してもらうファイル(My_first_AI_DS_02)は次回も引き続き使います! 動画に従って,自分でも必ずやってみましょう。
Mac × 日本語
Windows × English
2.4.2 セル範囲の選択とコピー,移動
下の動画では,Excelにおけるセル範囲の選択,列の幅の調整,形式を選択して貼り付けを紹介しています。
Mac × 日本語
Windows × English
2.4.3 検索と置換
ここでは検索と置換,セル内改行を動画で紹介しています。
Mac × 日本語
Windows × English
Mac × 日本語
Windows × English
2.4.6 関数(NOW, TEXT, IF) / 2.4.7 リドゥとリピート
続いてExcelの関数について,基本的な使い方を紹介していきます。テキストの2.4.6と2.4.7に対応した内容となっています。
具体的にはExcelの日付関数,IF関数,リドゥ・アンドゥとリピートを紹介していきます。
Mac × 日本語
Windows × English
実際の例を挙げてみます。下記は書籍p.20の1つ目のExcel関数です。曜日をとりだした文字列のセルがC6であることを想定しています。
=IF(C6="Sat","ビン・缶","なし")
条件分岐をもっと複雑にしましょう。曜日に応じて異なる回答が得られるようにしてみます。下記は書籍p.20の2つ目のExcel関数です。IF関数の中にIF関数を入れる(入れ子構造にする)ことで,分岐の分岐を作ることができます。
=IF(C6="Sat","ビン・缶",IF(C6="Mon","可燃ごみ","なし"))
IF 関数はさらに入れ子にしていくことができます。1 つ目の IF(あてはまれば, これを表示, それ以外の場合,2 つ目の IF(あてはまれば, これを表示, それ以外はこれ))... と 3 つ 目,4 つ目... と IF 式を入れ子にして条件を重ねていくことができます。以下はその例です。
=IF(C6="Mon","可燃ごみ",IF(E4="Wed","不燃ごみ",IF(E4="Thu","可燃ごみ",IF(E4="Sat","ビン・缶",IF(E4="Sun","古紙","なし")))))
Mac × 日本語
Windows × English
2.4.9 名前の定義
データを処理するうえで便利な機能を紹介します。それが名前の定義です。この機能を覚えるとExcelの手間を軽減してくれます。
Mac × 日本語
Windows × English
2.4.10 入力規則プルダウン
4節の最後は,プルダウンリストの作成についてです。入力データが決まっている場合,選択するだけで入力ができたら便利ですよね。よく使う入力データを入力規則からリスト化し設定しておけば,設定後は選択するだけでセルへの入力が可能になります。
Mac × 日本語
Windows × English
2.5. データクレンジングとデータラングリング
2.5.4 文字コード
5節の中から文字コードに関するトラブル対処について,お話しします。
ここでいう文字コードとは,バイト表現と文字の対応関係の体系のことです。 ファイルを読み込んだ時に文字化けをしてしまう場合の原因は多くの場合,文字コードの違いです。 ここではその対処法について紹介します。
動画の1つ目は,csvファイルをテキストファイルとして開いて,エンコードをANSIにして保存し直す方法を紹介しています。
Excelに限らず,文字化け問題に対処する一般的な方法で,将来どのようなOS,どのようなツールを使うことになっても,覚えておいて損のない知識です。
Windows × 日本語
Windows × English
動画の2つ目は,リボンの「データ」の中にある「テキストまたはcsvから」を使って文字化けなしにcsvファイルを読み込む方法です。
パワークエリに接続して読み込む方法ですが,パワークエリについては簡単にですがまた改めて紹介するので,今回はこのような文字化けに対する対処法もあるというにとどめます。(2025.4.25追加: ・・・と書きましたが、オプションで経験してみたい人のために、csvファイルをダウンロードできるボタンを以下に作りました。)
Mac × 日本語
Windows × English
2.5.5 文字列操作関数を使った実習
文字列(操作)関数を使ってデータクレンジングをしていく方法について,実践してみます。以下からデータをダウンロードして,実際にやってみましょう。
Windows × 日本語
Windows × English
2.5.6 フィルタ,データの入力規則,重複する値
最後に,文字列関数以外でデータクレンジングをしていくいくつかの方法についてです。
Mac × 日本語
Windows × English
© Chikako Takeishi. Designed by Chikafumi Nakamura. All Rights Reserved.