taketea2018のアイコン画像
taketea2018 2026年03月15日作成
セットアップや使用方法 セットアップや使用方法 閲覧数 47
taketea2018 2026年03月15日作成 セットアップや使用方法 セットアップや使用方法 閲覧数 47

データサイエンス入門 第7回 webスクレイピング その3

データサイエンス入門

AIプログラミングで学ぶデータサイエンス

第7回 webスクレイピング その3 ~実在するwebページをスレイピングする~

これまでwebスクライピングの練習を2回にわたって行いました。今回は実践編として現在稼働中のwebページである電波新聞社電子工作マガジンwebページ(https://denkomagazine.net/)をスクレイピングして必要な情報を取り出しましょう。

〇紹介動画は下記URLよりご視聴ください。

https://youtu.be/6OcDpDR_1NA

〇スライド形式pdf解説書です。

https://drive.google.com/file/d/14ocYmU_TtokZAHjk3M1qgEB6f1sOe3hA/view?usp=drive_link

〇サンプルプログラム

!pip install requests
import requests from bs4 import BeautifulSoup # トップページ情報を取得する URL = "https://denkomagazine.net/" url_get = requests.get(URL) # BeautifulSoupにページ内容を読み込ませる bsoup_get = BeautifulSoup(url_get.text, "html.parser") #print("soup:",bsoup_get.prettify()) #print(" ") # 見出しとURLの情報を取得して出力する news_list = bsoup_get.find_all('section') #print("news_list.txt:",news_list[0].text) news_list[0]=news_list[0].text.splitlines()#行分割 print("news1_list[0].text.splitlines:",news_list[0]) naiyou=[] for work1 in news_list[0]: #print("work1:",work1) #リスト内データ表示 work2=work1.strip() #空白削除 if work2!="": #空リストでなければ #print("work2:",work2) #リスト内データ表示 naiyou.append(work2) #chushutuにデータ追加 print("naiyou:",naiyou) print(" ") print("【",naiyou[0],"】") print("○",naiyou[1],naiyou[2]) print("○",naiyou[3],naiyou[4]) print("○",naiyou[5],naiyou[6])

GoogleColaboratoryにアップロードすればすぐに動作を確認できます。実行結果のサンプル付きです。
https://drive.google.com/file/d/1iMBr0gFIryaSGmHv96N1tpkqNrQLDknE/view?usp=drive_link

〇補足

公開している動画と解説用pdfは電波新聞社刊行電子工作マガジンに連載された同題名の内容をGoogle NotebookLMにてまとめています

taketea2018のアイコン画像
電子工作マガジンにデータサイエンス入門を連載させて頂いていました。終刊してしまい、残念です。掲載内容をリニューアルしたものと、続きを投稿する予定です。一読いただければ幸いです。
ログインしてコメントを投稿する