taketea2018 が 2026年03月15日12時15分43秒に編集

初版

タイトルの変更

データサイエンス入門第７回 webスクレイピングその３

タグの変更

データサイエンス

Python

スクレイピング

GoogleColaboratory

電子工作マガジン

記事種類の変更

セットアップや使用方法

本文の変更

# データサイエンス入門　 AIプログラミングで学ぶデータサイエンス ## 第７回　webスクレイピング　その３　～実在するwebページをスレイピングする～これまでwebスクライピングの練習を2回にわたって行いました。今回は実践編として現在稼働中のwebページである電波新聞社電子工作マガジンwebページ(https://denkomagazine.net/)をスクレイピングして必要な情報を取り出しましょう。 ## 〇紹介動画は下記URLよりご視聴ください。 https://youtu.be/6OcDpDR_1NA ## 〇スライド形式pdf解説書です。 https://drive.google.com/file/d/14ocYmU_TtokZAHjk3M1qgEB6f1sOe3hA/view?usp=drive_link ## 〇サンプルプログラム ``` !pip install requests ``` ``` import requests from bs4 import BeautifulSoup # トップページ情報を取得する URL = "https://denkomagazine.net/" url_get = requests.get(URL) # BeautifulSoupにページ内容を読み込ませる bsoup_get = BeautifulSoup(url_get.text, "html.parser") #print("soup:",bsoup_get.prettify()) #print(" ") # 見出しとURLの情報を取得して出力する news_list = bsoup_get.find_all('section') #print("news_list.txt:",news_list[0].text) news_list[0]=news_list[0].text.splitlines()#行分割 print("news1_list[0].text.splitlines:",news_list[0]) naiyou=[] for work1 in news_list[0]: #print("work1:",work1) #リスト内データ表示 work2=work1.strip() #空白削除 if work2!="": #空リストでなければ #print("work2:",work2) #リスト内データ表示 naiyou.append(work2) #chushutuにデータ追加 print("naiyou:",naiyou) print("　") print("【",naiyou[0],"】") print("○",naiyou[1],naiyou[2]) print("○",naiyou[3],naiyou[4]) print("○",naiyou[5],naiyou[6]) ``` GoogleColaboratoryにアップロードすればすぐに動作を確認できます。実行結果のサンプル付きです。 https://drive.google.com/file/d/1iMBr0gFIryaSGmHv96N1tpkqNrQLDknE/view?usp=drive_link ## 〇補足公開している動画と解説用pdfは電波新聞社刊行電子工作マガジンに連載された同題名の内容をGoogle NotebookLMにてまとめています