データサイエンス入門 第7回 webスクレイピング その3
データサイエンス入門
AIプログラミングで学ぶデータサイエンス
第7回 webスクレイピング その3 ~実在するwebページをスレイピングする~
これまでwebスクライピングの練習を2回にわたって行いました。今回は実践編として現在稼働中のwebページである電波新聞社電子工作マガジンwebページ(https://denkomagazine.net/)をスクレイピングして必要な情報を取り出しましょう。
〇紹介動画は下記URLよりご視聴ください。
〇スライド形式pdf解説書です。
https://drive.google.com/file/d/14ocYmU_TtokZAHjk3M1qgEB6f1sOe3hA/view?usp=drive_link
〇サンプルプログラム
!pip install requests
import requests
from bs4 import BeautifulSoup
# トップページ情報を取得する
URL = "https://denkomagazine.net/"
url_get = requests.get(URL)
# BeautifulSoupにページ内容を読み込ませる
bsoup_get = BeautifulSoup(url_get.text, "html.parser")
#print("soup:",bsoup_get.prettify())
#print(" ")
# 見出しとURLの情報を取得して出力する
news_list = bsoup_get.find_all('section')
#print("news_list.txt:",news_list[0].text)
news_list[0]=news_list[0].text.splitlines()#行分割
print("news1_list[0].text.splitlines:",news_list[0])
naiyou=[]
for work1 in news_list[0]:
#print("work1:",work1) #リスト内データ表示
work2=work1.strip() #空白削除
if work2!="": #空リストでなければ
#print("work2:",work2) #リスト内データ表示
naiyou.append(work2) #chushutuにデータ追加
print("naiyou:",naiyou)
print(" ")
print("【",naiyou[0],"】")
print("○",naiyou[1],naiyou[2])
print("○",naiyou[3],naiyou[4])
print("○",naiyou[5],naiyou[6])
GoogleColaboratoryにアップロードすればすぐに動作を確認できます。実行結果のサンプル付きです。
https://drive.google.com/file/d/1iMBr0gFIryaSGmHv96N1tpkqNrQLDknE/view?usp=drive_link
〇補足
公開している動画と解説用pdfは電波新聞社刊行電子工作マガジンに連載された同題名の内容をGoogle NotebookLMにてまとめています
投稿者の人気記事

-
taketea2018
さんが
前の日曜日の12:15
に
編集
をしました。
(メッセージ: 初版)
ログインしてコメントを投稿する