- データサイエンティストとはどんな仕事?データサイエンスの学び方
データサイエンティストとはどんな仕事?データサイエンスの学び方
この記事に登場するメンター
近年注目を集めているデータサイエンティスト。新しい職種ということもあって、なかなかデータサイエンスを学ぶ道筋がわかりにくい職種でもあると思います。今回はコンペティションサイトProbSpaceを運営されているTechTrainメンター、Yoshiaki Naitoさんにデータサイエンティストとはどんな仕事か?データサイエンスはどのように学べば良いのか?についてお伺いしました。
目次
- データサイエンティストとは?ビジネス、エンジニアリング、研究、それぞれの役割
- データサイエンティストに必要なスキル
- データサイエンスの学び方
今回答えてくれたメンター
データサイエンティストとは?ビジネス、エンジニアリング、研究、それぞれの役割
―データサイエンティストという仕事に興味を持たれる方が多いです。データサイエンティストはどのようなことをしているのですか?
データサイエンティストは、大きく3つのタイプに分けられます。それぞれ異なる役割を担い、データ分析を通してビジネスや社会に貢献しています。
◯ビジネス系
企業が抱える課題をデータ分析で解決に導く役割を担います。私が過去に携わったものでいうと、営業成績を向上させるプロジェクトが具体例として挙げられます。そのプロジェクトでは、それぞれの営業担当者の売上や月間の面談数、その担当の上長が誰かなど様々なデータを分析して、より効果的な営業戦略の立案を支援しました。
◯エンジニア系
モデルのパフォーマンスを最適化したり、モデルを実際のシステムに実装したりする役割を担います。例えば、金融機関の貸倒率が減るように融資基準を最適化させたり、広告の表示アルゴリズムを最適化させたりということをします。
◯研究者系
最先端のデータ分析技術やアルゴリズムの研究開発を行い、新たな知見や技術を生み出す役割を担います。研究成果は、新たなビジネスモデルやサービス開発に繋がる可能性を秘めています。
データサイエンティストに必要なスキル
―データサイエンティストになるには、どのようなスキルが必要なのでしょうか?
どのタイプを目指すかによって必要なスキルは異なりますが、共通して求められるのは、データ分析の基礎知識とプログラミングスキルです。
データ分析の基礎知識としては、Kaggleなどのコンペに参加できる程度のスキルセットが最低限必要です。また、その前提となるプログラミングスキルも、データ分析モデルの構築やデータ処理・可視化を行う上で不可欠であり、特にPythonやPandasの扱いに慣れておくことが重要です。
ビジネス系のデータサイエンティストであれば、これに加えて、経営層に対して説明できる能力や、データサイエンスのプロジェクトとして成立するのかということを判断するためのビジネス背景の理解が必要です。
―エンジニアリング系データサイエンティストになるには、どのようなスキルが必要なのでしょうか?
エンジニアとしてデータサイエンスに関わるといっても、多岐にわたる役割やポジションがあります。たとえば、機械学習やAIモデルの最適化に携わるポジション、モデルをプロダクション環境に展開し、実際のアプリケーションとして動かすポジション、さらにはデータ基盤の整備やデータ処理の効率化を担うポジションなどが挙げられます。それぞれの領域で、求められるデータサイエンスの知識レベルも異なってきます。
たとえば、モデル最適化の専門家であれば、日ごろから論文を読んでさまざまなアルゴリズムや分析手法を理解し、それらを実際に実装できるプログラミングスキルが求められます。一方で、インフラ寄りのポジションであれば、RDBに関する知識や分散処理技術などへの理解が必要となります。
どのようなタイプであっても、一通りのプログラミングやデータサイエンスに関するスキルは前提です。Kaggleなどのコンペにたくさん参加し、さまざまな人のコードを読みながら、それを自分のものにしていく必要があると考えています。
データサイエンスの学び方
―データサイエンスの具体的な学習方法について教えてください。
まずは、データ分析の基礎を学ぶことから始めましょう。動画コンテンツなど、実際に手を動かしながら学習していけるオンライン学習サービスがおすすめです。
ある程度基礎を学んだら、Kaggleなどデータ分析コンペティションサイトを活用して、実践的な機械学習のスキルを習得しましょう。コンペでは世界中のデータサイエンティストと競い合いながらスキルを向上させることができます。また、自分が理解していないところが明確になるので、次に学ぶべきことがはっきりします。
書籍で学ぶなら「Kaggleで磨く 機械学習の実践力」や「Kaggleで勝つデータ分析の技術」がおすすめです。
また、私が運営している、初学者・中級者向けのコンペティションサイト「ProbSpace」もオススメです。ProbSpaceではイメージしやすいテーマを取り扱っています。Kaggleとは異なり、データセットは一般的なスペックのPC環境で解析可能なボリュームになっています。参加者の解法解説やコードを見ることもできるので、上位者のノウハウを学び、自分のスキルを向上させることができます。
おわりに
―最後に、データサイエンティストを目指す人へのメッセージをお願いします。
データサイエンティストを目指す上で、勉強と実践のバランスを取りながら学習を進めることが大切だと考えています。理論やモデルの実行方法を学ぶだけでなく、得た知識を実際のデータに応用し、モデルを作ってみることが重要です。この分野は日々進化しているので、最新の技術や手法にも積極的に挑戦し続けてください。
TechTrainでは今回インタビューに答えて頂いた内藤さんをはじめとして、140名以上のメンターから無料で1on1メンタリングが受けられます。ぜひメンターページからメンターとの面談予約をしてみてください!