taketea2018 が 2026年02月17日19時49分35秒 に編集
初版
タイトルの変更
データサイエンス入門 第3回 ワードクラウドに挑戦する ~準備編~
タグの変更
Python
ワードクラウド
データサイエンス
GoogleColaboratory
形態素解析
記事種類の変更
セットアップや使用方法
本文の変更
# ** データサイエンス入門 ** AIプログラミングで学ぶデータサイエンス ## 第3回 ワードクラウドに挑戦する ~準備編 形態素解析とワードクラウド~~ 蓄積した文書や集めたデータから傾向を分析して表現するにはどのような方法があるでしょうか。 ある文章内でどのような言葉が何回使われているのかを知りたい場面はけっこうあると思います。例えば、集めたアンケートの記述欄に描かれた言葉から答えてくれた人がどのようなことに関心を持っているのか知りたい、小説などの大量の文書内からその筆者の特徴をつかむために言葉の出現頻度を知りたい、などの場面があります。 最近よく目にするワードクラウドは、集めたデータ内で使われている言葉の使われ方を表現するプレゼンテーション技法の一つです。言葉は出現頻度が高いほど大きく表現されます。出現頻度が少ないと小さく表示されます。多数の大小の言葉が集合すると雲のように見えることからワードクラウドと呼びます。ここではワードクラウドを行う前に必要な準備について説明します。 具体的には、その基盤となる形態素解析の技術を解説し、文章を意味のある最小単位へと分割する分かち書きの重要性を説明し、Google Colab上で動作するPythonや解析ツールのMeCabを用いた具体的な実装手順を説明します。 ソースコードの記述だけでなく、事前にエディタで文字コードをUTF-8へ変換したり不要な改行を除去したりといった、精度の高い分析に欠かせないデータ前処理の工程についても説明します。 最終的には、複雑なテキストから直感的に傾向を把握するためのデータサイエンスの基礎技法を習得することを目的としています。 ### 〇動画は下記URLよりご視聴ください。 https://youtu.be/tgIoP722rzI ### 〇PDF解説書です。 https://drive.google.com/file/d/1VgRc7LRKMiHx6hvW_6Kj9U9TuZOtXG9b/view?usp=drive_link ### 〇マルコフ連鎖用元文書です。 https://drive.google.com/file/d/1iP2sCA5mmPE31fXAp6GVcxdvtjaNxzBR/view?usp=drive_link https://drive.google.com/file/d/1UbHhCbpGoLCRcePoJsBUnraodT3zsw1r/view?usp=drive_link ### 〇サンプルプログラム GoogleColaboratoryにアップロードすればすぐに動作を確認できます。実行結果のサンプル付きです。 https://docs.google.com/document/d/1lokoMyhk1y5NQAb3BNFJe26o6t9pFa2_/edit?usp=drive_link&ouid=109455724051206991750&rtpof=true&sd=true ### 〇補足 公開している動画とPDFは電波新聞社刊行電子工作マガジンに連載された同題名の内容をGoogle NotebookLMにてまとめています