編集履歴一覧に戻る
taketea2018のアイコン画像

taketea2018 が 2026年03月15日12時15分43秒 に編集

初版

タイトルの変更

+

データサイエンス入門 第7回 webスクレイピング その3

タグの変更

+

データサイエンス

+

Python

+

スクレイピング

+

GoogleColaboratory

+

電子工作マガジン

記事種類の変更

+

セットアップや使用方法

本文の変更

+

# データサイエンス入門   AIプログラミングで学ぶデータサイエンス ## 第7回 webスクレイピング その3 ~実在するwebページをスレイピングする~ これまでwebスクライピングの練習を2回にわたって行いました。今回は実践編として現在稼働中のwebページである電波新聞社電子工作マガジンwebページ(https://denkomagazine.net/)をスクレイピングして必要な情報を取り出しましょう。 ## 〇紹介動画は下記URLよりご視聴ください。 https://youtu.be/6OcDpDR_1NA ## 〇スライド形式pdf解説書です。 https://drive.google.com/file/d/14ocYmU_TtokZAHjk3M1qgEB6f1sOe3hA/view?usp=drive_link ## 〇サンプルプログラム ``` !pip install requests ``` ``` import requests from bs4 import BeautifulSoup # トップページ情報を取得する URL = "https://denkomagazine.net/" url_get = requests.get(URL) # BeautifulSoupにページ内容を読み込ませる bsoup_get = BeautifulSoup(url_get.text, "html.parser") #print("soup:",bsoup_get.prettify()) #print(" ") # 見出しとURLの情報を取得して出力する news_list = bsoup_get.find_all('section') #print("news_list.txt:",news_list[0].text) news_list[0]=news_list[0].text.splitlines()#行分割 print("news1_list[0].text.splitlines:",news_list[0]) naiyou=[] for work1 in news_list[0]: #print("work1:",work1) #リスト内データ表示 work2=work1.strip() #空白削除 if work2!="": #空リストでなければ #print("work2:",work2) #リスト内データ表示 naiyou.append(work2) #chushutuにデータ追加 print("naiyou:",naiyou) print(" ") print("【",naiyou[0],"】") print("○",naiyou[1],naiyou[2]) print("○",naiyou[3],naiyou[4]) print("○",naiyou[5],naiyou[6]) ``` GoogleColaboratoryにアップロードすればすぐに動作を確認できます。実行結果のサンプル付きです。 https://drive.google.com/file/d/1iMBr0gFIryaSGmHv96N1tpkqNrQLDknE/view?usp=drive_link ## 〇補足 公開している動画と解説用pdfは電波新聞社刊行電子工作マガジンに連載された同題名の内容をGoogle NotebookLMにてまとめています