データサイエンス入門

データサイエンス入門

要約


当時といえば、コンビニなどの購入履歴により、購買傾向を取ると言う物(Tポイントカードから傾向を調べたりなど)。現在ではセンサー技術やスマートフォンの普及により様々なデータが集まるようになって情報は21世紀の石油とまで言われているらしい。

日本の企業としてはデータは持っているけど分析できる人材が居なという問題がある。欧米や中国などは専門のカリキュラムを作って対応しているケ度に日本は遅れている。日本の教育は文系、理系だけ分けて大学の専門以外の職種に就くことが多々ある。統計学のような汎用な学問は後から必要に応じて勉強すればいいと言った傾向にある。データサイエンスティストは文理融合した学問である。データサイエンティストの3要素である情報学、統計学は理系であり、価値を引き出すデータは人々の行動などのデータであり文系である。日本でも滋賀大学、横浜市立大学などでデータサイエンス学部を開設して人材の育成に励んでいる。

1章では統計学の歴史、コンピュータの歴史などを記載している。文系の人には読みにくいかもしれないけど面白いので読んでいただきたい。スマートフォンやコンピュータの話などは身近な話なのでついていきやすいと思う(最近の若い子は、パソコンを使わないでスマートフォンだけで用を足りているとか。信じられない)。

データとは、様々な計測や観測によって主に数値化した情報のことを言う。インターネットやセンサーの機能が向上したことにより、最近ではテキストデータ、音声データや画像データなどが容易に入手可能になった。

テキストデータは、SNSへの個人の書き込みや報道機関の記事の電子化により、ほとんど無尽蔵に得られるようになった。適切なキーワードを抽出し検索の対象にすることや、どのような話題について書かれたものであるか話題の特定、文書の分類などが求められる。

音声データについては、音声によるテキスト入力や検索が重要である。音声入力やキーボード入力の性能があがれば、スマートフォンのタッチパネルによる入力やキーボード入力が面倒な場合で非常に有効なためである。音声入力では人の発生に対してまずテキスト化してから、テキストデータの処理をおこなう(ついでに、Siriももともとは軍事技術を民間転用したもの)。

画像データについては、スマートフォンの普及やデジカメの高性能化で最近ではありふれたデータになった。SNSに投稿したり、ネットワークに蓄積された画像データは急激に増えている。医療分野では、MRI、超音波検査、CTスキャンなど診断の重要なデータになっている。

国勢調査などからわかるように、データを集めることはコストがかかってもやるだけの意義がある。政府が作成するデータはインターンットなどに閲覧ができ、役に立つ。

これらのビックデータは個別の企業のビジネスにも有用である。データを適切な価格で流通させる市場の形成が求められる。人々の購入データについても、それぞれの企業の持つデータには特徴がある。クレジットカード会社は特定の個人がどの店でいくら購入したかわかるが、個々に何をいくら購入したかというレシート情報はない。一方特定のポイントカードの利用からはレシートの情報が得られるが、競合するポイントカードの利用についてはわからない。

企業間のデータ提供で問題になるのが、個人情報の扱いである。アマゾン、グーグルなどのインターネットの巨大企業は単一の企業であり、企業内では自由にデータを扱うことができる。それに対して、企業間のデータ提供をする場合、データの提供について利用者の事前の同意が得られているかなどが問題となる。

データサイエンスの目的はデータから価値を引き出すことであるが、データから様々な知見を得るだけなく、その知見を生かした意思決定を行ない、具体的な行動につなげなければ価値はない。データサイエンティストは意思決定者であるとは限らないが、その重要な役目は意思決定につながる事実や知見を意思決定者にわかりやすく提示する事であろう。意思決定には不確実性がつきものである。今後何が起こるかが確実な時には、意思決定は比較的容易である。現実には、データが十分であっても将来には不確実性が残り、意思決定は不確実性の元で行わなければならない。不確実性を扱う理論的な枠組みは確率論であり、数学的には、将来に向けて合理的な意思決定は、現状えられるデータを所与とした上で将来のリスクの条件につき確率に基づき、リスクの期待値を最小とするような決定をすればよい。しかし現実的には、客観的なリスクの評価や条件付き確率自体の評価が困難である。



投稿日

カテゴリー:

投稿者:

タグ:

コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です