データサイエンス入門第７回 webスクレイピングその３

AIプログラミングで学ぶデータサイエンス

これまでwebスクライピングの練習を2回にわたって行いました。今回は実践編として現在稼働中のwebページである電波新聞社電子工作マガジンwebページ(https://denkomagazine.net/)をスクレイピングして必要な情報を取り出しましょう。

https://youtu.be/6OcDpDR_1NA

https://drive.google.com/file/d/14ocYmU_TtokZAHjk3M1qgEB6f1sOe3hA/view?usp=drive_link


!pip install requests


import requests
from bs4 import BeautifulSoup

# トップページ情報を取得する
URL = "https://denkomagazine.net/"
url_get = requests.get(URL)

# BeautifulSoupにページ内容を読み込ませる
bsoup_get = BeautifulSoup(url_get.text, "html.parser")
#print("soup:",bsoup_get.prettify())
#print(" ")

# 見出しとURLの情報を取得して出力する
news_list = bsoup_get.find_all('section')
#print("news_list.txt:",news_list[0].text)

news_list[0]=news_list[0].text.splitlines()#行分割
print("news1_list[0].text.splitlines:",news_list[0])

naiyou=[]
for work1 in news_list[0]:
        #print("work1:",work1) #リスト内データ表示
        work2=work1.strip() #空白削除
        if work2!="": #空リストでなければ
            #print("work2:",work2) #リスト内データ表示
            naiyou.append(work2) #chushutuにデータ追加
print("naiyou:",naiyou)
print("　")

print("【",naiyou[0],"】")
print("○",naiyou[1],naiyou[2])
print("○",naiyou[3],naiyou[4])
print("○",naiyou[5],naiyou[6])

GoogleColaboratoryにアップロードすればすぐに動作を確認できます。実行結果のサンプル付きです。
https://drive.google.com/file/d/1iMBr0gFIryaSGmHv96N1tpkqNrQLDknE/view?usp=drive_link

公開している動画と解説用pdfは電波新聞社刊行電子工作マガジンに連載された同題名の内容をGoogle NotebookLMにてまとめています