01. はじめに
1.1 本ウェブサイトの目的
本ウェブサイトは,『超入門・はじめてのAI・データサイエンス』(培風館)の特設サイトです。同書に関連する動画やコードをここで公開しています。同書に従って系統的に学び,このサイトは,同書に対応した操作に関する動画を視聴したり、コードをコピーしたりする補助教材として活用してください。青い字はリンクになっているので,必要に応じてクリックしてリンク先を参照してください。
このページは同書「第1章 はじめに」に対応しています。第1章にはまだツールの操作は含まれないので,この「0.1 はじめにページ」の以下のページは,「ちょっと寄り道」的な内容になっています。本論については,必ず書籍の方を確認してください。
1.2 本ウェブサイトで用いるツールについて
まず,書籍の1.2「本書で用いるツールについて」に関連して,データサイエンスに用いられてきたツールの移り変わりを,同書で扱うツールを選んだ背景として紹介します。データサイエンティストがどのようなツールを使ってデータを活用してきたか,2000年から20年間の推移を見てみましょう。
推移をアニメーションにした棒グラフがレースをするように見えるこのようなグラフを,「棒グラフレース」(Bar chart race)といいます。
汎用プログラミング言語のPythonがトップ10に喰いこんだのは2010年,その後,ネコの画像認識により深層学習が世界の注目を浴びた2012年以降,Pythonが躍進していく様子がわかります。
また,データサイエンティストの多くは複数のツールを用いています。SQL は,ビッグデータ時代に Python とともに用いられることの多いデータベース言語です。さらに一般人を含めたデータアナリストの多くが活用し,プログラミング言語を駆使するデータサイエンティス トも併用している表計算ソフトが Excel です。
このウェブサイトでは,表計算ソフトとしてExcel,汎用プログラミング言語としてPython,データベース言語としてはSQLを用いていきます。一般読者は,Excelが各自の実習用PCにインストール済みであることを想定しています。
Pythonは,誰でも利用することのできるGoogle Colaboratory上で用いていきます。SQLは,無料で利用できるDB Browser for SQLiteをインストールして用いていきます。
1.3 データサイエンスの共通項
書籍の1.3「データサイエンスの共通項」で紹介しているデータの種類は,今後,生成AIによりツールが発展していくからこそデータサイエンスを用いる私たちが理解しておくべき基礎知識です。最近の日本の高校教育を受けた学生には復習となる部分です。このサイトでは,生成AIの1例を紹介しています。生成AIの登場で,Excelにやって欲しいことを指示すると,データの整備から図表の作成までAIがやってくれる時代になりつつあります。
この科目で後に用いる生成AIはChatGPTで,Microsoft社のcopilotは用いませんが,参考のためにExcel using Copilotの動画を軽くご紹介します。
これらの生成AIは大変有用で,今後はみなさんによって大いに使われていくことになるでしょう。しかし過渡期の今は,Excelの基本を知っている人の方がはるかにExcelの操作に熟達しています。
同様に機械学習も,アプリで利用する方法のみならず,統計の基礎とプログラミングの基本を知っている人の方が応用力があります。
実地への応用には基礎力を養うことが大切なので,手を動かしながらAI・データサイエンスの基礎概念をしっかり理解していきましょう。
そのためにも理解すべき基礎概念の第1が,データの種類です。データには量的データ(量的変数)と質的データ(質的変数)があります。データの種類を見分けることがすべての分析の基本となるので,『超入門・はじめてのAI・データサイエンス』1.3.2を参照してください。
1.4 <コラム>Society 5.0と「データ駆動型社会」
最後に,<コラム>とあるのは,書籍には含まれていない項目です。このページの1.4<コラム>は書籍の1.1「AI・データサイエンスと本書の目的」で触れているAI・データサイエンスの必要性に関連して,Society 5.0という日本の概念についての動画を紹介します。「動画でわかるSociety 5.0 令和3年版科学技術・イノベーション白書」は2分強の短い動画です。
関連して、やはり日本の文献に頻出するデータ駆動型社会という用語についても紹介します。「データ駆動型社会」とは,ビッグデータの解析とそれに基づく意思決定により,問題解決や価値創造を進めていく社会のことを指しています。つまり,ビッグデータ時代のEBPM (evidence-based policymaking)のことを指す用語ですが,英語ではdata driven societyという表現は日本ほど用いられません。社会自体がdata drivenという唯物論的な表現よりも,data-driven decision-makingのように,人間の意志が介在する表現の方が英語では一般的です。「データ駆動型社会」は日本の文献には頻出するので,覚えておくと良いでしょう。
© Chikako Takeishi. Designed by Chikafumi Nakamura. All Rights Reserved.