taketea2018のアイコン画像
taketea2018 2026年02月17日作成 (2026年02月22日更新)
セットアップや使用方法 セットアップや使用方法 閲覧数 119
taketea2018 2026年02月17日作成 (2026年02月22日更新) セットアップや使用方法 セットアップや使用方法 閲覧数 119

データサイエンス入門  第3回 ワードクラウドに挑戦する ~準備編~

データサイエンス入門

AIプログラミングで学ぶデータサイエンス

第3回 ワードクラウドに挑戦する ~準備編 形態素解析とワードクラウド~~

キャプションを入力できます

蓄積した文書や集めたデータから傾向を分析して表現するにはどのような方法があるでしょうか。

ある文章内でどのような言葉が何回使われているのかを知りたい場面はけっこうあると思います。例えば、集めたアンケートの記述欄に描かれた言葉から答えてくれた人がどのようなことに関心を持っているのか知りたい、小説などの大量の文書内からその筆者の特徴をつかむために言葉の出現頻度を知りたい、などの場面があります。

最近よく目にするワードクラウドは、集めたデータ内で使われている言葉の使われ方を表現するプレゼンテーション技法の一つです。言葉は出現頻度が高いほど大きく表現されます。出現頻度が少ないと小さく表示されます。多数の大小の言葉が集合すると雲のように見えることからワードクラウドと呼びます。

ここではワードクラウドを行う前に必要な準備について説明します。

〇動画は下記URLよりご視聴ください。

https://youtu.be/tgIoP722rzI

〇スライド形式pdf解説書です。

https://drive.google.com/file/d/1VgRc7LRKMiHx6hvW_6Kj9U9TuZOtXG9b/view?usp=drive_link

〇ワードクラウド分析に使うサンプル文書

https://drive.google.com/file/d/1iP2sCA5mmPE31fXAp6GVcxdvtjaNxzBR/view?usp=drive_link
https://drive.google.com/file/d/1UbHhCbpGoLCRcePoJsBUnraodT3zsw1r/view?usp=drive_link

〇サンプルプログラム

#!/usr/bin/python3 #Python使用宣言 # -*- coding: utf-8 -*- #文字コードutf-8 import MeCab #Mecabライブラリの取り込み import codecs #文字コードライブラリ取り込み from google.colab import drive #Googleドライブライブラリの取り込み drive.mount('/content/drive')  #ドライブ使用宣言 filename = "/content/drive/MyDrive/data_science/kakou_aipy_hajimeni.txt"  #使用ファイル名設定 jtext=open(filename,"r",encoding="utf-8").read() #ファイルを読込モードでオープン chasen=MeCab.Tagger("Ochasen") #Mecab Chasenモードにセット keitaiso=chasen.parse(jtext) #形態素解析実行 print("jtext:",jtext) #元テキスト表示 print("keitaiso:",keitaiso) #形態素解析結果表示

GoogleColaboratoryにアップロードすればすぐに動作を確認できます。実行結果のサンプル付きです。

https://docs.google.com/document/d/1lokoMyhk1y5NQAb3BNFJe26o6t9pFa2_/edit?usp=drive_link&ouid=109455724051206991750&rtpof=true&sd=true

〇補足

公開している動画とPDFは電波新聞社刊行電子工作マガジンに連載された同題名の内容をGoogle NotebookLMにてまとめています

taketea2018のアイコン画像
電子工作マガジンにデータサイエンス入門を連載させて頂いていました。終刊してしまい、残念です。掲載内容をリニューアルしたものと、続きを投稿する予定です。一読いただければ幸いです。
ログインしてコメントを投稿する