01はじめに / Introduction

【目次/TOC】

  1. 本ウェブサイトの目的
    The Purpose of this Website
  2. 本ウェブサイトで用いるツールについて
    About the Tools Used in this Website
  3. データサイエンスの共通項
    Common Knowledge in Data Science
  4. 1. 本ウェブサイトの目的/The Purpose of this Website

    本ウェブサイトは,『超入門・はじめてのAI・データサイエンス』(培風館)の特設サイトです。同書に関連する動画やコードをここで公開しています。

    This is the companion website for the book, 『超入門・はじめてのAI・データサイエンス』. Its English version is available from the link at the top of the sidebar on the left. Online resources such as videos and codes can be accessed in this website.

    このページは同書「第1章 はじめに」に対応しています。

    This page corresponds to Session 01.

    2.本書で用いるツールについて/About the Tools used in this Website

    データサイエンティストがどのようなツールを使ってデータを活用しているか,2000年から20年間の推移を見てみましょう。推移をアニメーションにした棒グラフがレースをするように見えるこのようなグラフを,「棒グラフレース」(Bar chart race)といいます。汎用プログラミング言語のPythonがトップ10に喰いこんだのは2010年,その後,ネコの画像認識により深層学習が世界の注目を浴びた2012年以降,Pythonが躍進していく様子がわかります。 また,データサイエンティストの多くは複数のツールを用いています。SQL は,ビッグデータ時代に Python とともに用いられることの多いデータベース言語です。さらに一般人を含めたデータアナリストの多くが活用し,プログラミング言語を駆使するデータサイエンティス トも併用している表計算ソフトが Excel です。

    Let's take a look at what tools data scientists are using to make use of data for the 20-year period from 2000. This kind of animated bar chart is called a 'bar chart race'. Python, a general-purpose programming language, made it into the top ten in 2010, and then in 2012, when deep learning came to the world's attention thanks to cat image recognition, we can see how Python has made great strides since then. Many data scientists also use multiple tools, including SQL, a database language often used together with Python in the big data era. Furthermore, Excel is a spreadsheet software that is used by many data analysts, including the general public, and is also used by data scientists who make use of programming languages.

    Video: Top 10 Data Science Tools over time, according to popularity in KDnuggets Polls from 2000 to 2019
    出所/Source:https://www.kdnuggets.com/2020/06/data-science-tools-popularity-animated.html

    このウェブサイトでは,表計算ソフトとしてExcel,汎用プログラミング言語としてPython,データベース言語としてはSQLを用いていきます。
    一般読者は,Excelが各自の実習用PCにインストール済みであることを想定しています。中央大学の学生は,大学のMicrosoft 365を使うことができるので, manabaの科目コースを見てインストールして下さい。
    Pythonは,誰でも利用することのできるGoogle Colaboratory上で用いていきます。
    SQLは,無料で利用できるDB Browser for SQLiteをインストールして用いていきます。

    This website will use Excel as the spreadsheet software, Python as the general-purpose programming language and SQL as the database language. The general reader is assumed to have Excel already installed on their own practice PC. Students at Chuo University can use Microsoft 365 at the university and should install it by looking at the subject courses on manaba. Python will be used on Google Colaboratory, which is available to everyone. SQL will be used by installing DB Browser for SQLite, which is available free of charge.

    3. データサイエンスの共通項/Common Knowledge in Data Science

    本科目が開設された2021年度当時は科目の半分を占めていたExcelが,いまや全13章中、2章(第2章,第3章)のみとなっています。これはcopilotの登場で,Excelにやって欲しいことを指示すると,データの整備から図表の作成までAIがやってくれる時代になりつつあるためです。今はまだcopilotを導入している個人・組織が多いとはいえないので,ここではどのようなことができるのかについてリンクと下の動画でお見せするだけにします。
    これらの生成AIは大変有用で,今後はみなさんによって大いに使われていくことになるでしょう。しかし過渡期の今は,Excelの基本を知っている人の方がはるかにExcelの操作に熟達しています。
    同様に機械学習も,アプリで利用する方法のみならず,統計の基礎とプログラミングの基本を知っている人の方が応用力があります。実地への応用には基礎力を養うことが大切なので,手を動かしながらAI・データサイエンスの基礎概念をしっかり理解していきましょう。

    Excel, which accounted for half of the subject in 2021 when this course was first opened, is now only in two of the 13 chapters (Chapters 2 and 3). This is because, with the advent of copilot, we are entering an age in which we can tell Excel what we want it to do, and the AI will do everything from preparing data to creating charts and tables. As copilot is not yet used by many individuals or organizations at the moment, I will only show you a video of what it can do here and below.
    These generative AIs are very useful and will be used by many of you in the future. However, in this transitional period, people who know the basics of Excel are far more proficient in its operation. Similarly, in machine learning, people who know the basics of statistics and programming, as well as how to use it in applications, are better able to apply the knowledge into practice. Cultivating basic knowledge is important for practical applications, so make sure you understand the basic concepts of AI and data science while working with your hands.

    Excel using Copilot
    出所/Source:https://www.microsoft.com/ja-jp/microsoft-365/business/copilot-for-microsoft-365

    理解すべき基礎概念の第1が,データの種類です。データには量的データ(量的変数)と質的データ(質的変数)があります。データの種類を見分けることがすべての分析の基本となるので,『超入門・はじめてのAI・データサイエンス』1.3.2を参照してください。

    The first important concept is the type of data. There are two types of data: quantitative data (quantitative variable) and qualitative data (qualitative variable). Distinguishing between types of data is the basis of all analysis, see 1.3.2 in the English website.