728x90
지난글 보러가기 https://dev-guardy.tistory.com/117
저번에 만들었던 코드는 다음과 같다.
import requests
from bs4 import BeautifulSoup
import re
resp = requests.get('https://finance.naver.com/sise/sise_market_sum.naver?sosok=0&page=1')
html_data = resp.text
soup = BeautifulSoup(html_data, 'html.parser')
tbody = soup.find('tbody')
stocks = []
for row in tbody.find_all('tr'):
tds = row.find_all('td')
if len(tds) < 12:
continue
stock_name_tag = tds[1].find('a')
if stock_name_tag:
stock_name = stock_name_tag.text.strip()
href = stock_name_tag['href']
stock_code_match = re.search(r'code=(\d+)', href)
stock_code = stock_code_match.group(1) if stock_code_match else ''
else:
stock_name = ''
stock_code = ''
current_price = tds[2].text.strip().replace(',', '')
market_cap = tds[6].text.strip().replace(',', '')
num_shares = tds[7].text.strip().replace(',', '')
foreign_ratio = tds[8].text.strip().replace(',', '')
volume = tds[9].text.strip().replace(',', '')
per = tds[10].text.strip()
roe = tds[11].text.strip()
stock_data = {
'종목명': stock_name,
'종목코드': stock_code,
'현재가': current_price,
'시가총액': market_cap,
'상장주식수': num_shares,
'외국인비율': foreign_ratio,
'거래량': volume,
'PER': per,
'ROE': roe
}
stocks.append(stock_data)
for stock in stocks:
print(stock)
이 코드의 경우 코스피 첫번째 페이지만 가져오기 때문에 코스피, 코스닥 전체 종목 정보를 가져오기 위해서는 반복문을 돌려야한다.
우선 코스피의 경우
46페이지
코스닥의 경우
36페이지까지 있다.
이제 코드를 작성해보자.
먼저 최종결과를 jsonl로 저장할것이기 때문에 라이브러리 부분을 수정해준다.
그 다음 market 정보에 대해 dict 형태로 정의해준다.
import requests
from bs4 import BeautifulSoup
import re
import json
import time
markets = {
'코스피': {'sosok': '0', 'pages': 46},
'코스닥': {'sosok': '1', 'pages': 36}
}
stocks = []
그 다음 큰 for문을 열어 코스피와 코스닥을 돌게 해준다.
for market_name, market_info in markets.items():
sosok = market_info['sosok']
total_pages = market_info['pages']
print(f"{market_name} 정보 가져오기 ...")
위 for문 안에 저번에 만들었던 코드에서 sosok과 page부분을 변수로 바꿔준다음에 재사용하여 다음과 같이 코드를 작성한다.
for page in range(1, total_pages + 1):
url = f'https://finance.naver.com/sise/sise_market_sum.naver?sosok={sosok}&page={page}'
resp = requests.get(url)
html_data = resp.text
soup = BeautifulSoup(html_data, 'html.parser')
tbody = soup.find('tbody')
for row in tbody.find_all('tr'):
tds = row.find_all('td')
if len(tds) < 12:
continue
stock_name_tag = tds[1].find('a')
if stock_name_tag:
stock_name = stock_name_tag.text.strip()
href = stock_name_tag['href']
stock_code_match = re.search(r'code=(\d+)', href)
stock_code = stock_code_match.group(1) if stock_code_match else ''
else:
stock_name = ''
stock_code = ''
current_price = tds[2].text.strip().replace(',', '')
market_cap = tds[6].text.strip().replace(',', '')
num_shares = tds[7].text.strip().replace(',', '')
foreign_ratio = tds[8].text.strip().replace(',', '')
volume = tds[9].text.strip().replace(',', '')
per = tds[10].text.strip()
roe = tds[11].text.strip()
stock_data = {
'구분': market_name,
'종목명': stock_name,
'종목코드': stock_code,
'현재가': current_price,
'시가총액': market_cap,
'상장주식수': num_shares,
'외국인비율': foreign_ratio,
'거래량': volume,
'PER': per,
'ROE': roe
}
stocks.append(stock_data)
time.sleep(0.5)
마지막으로 모든 종목 정보가 stocks 리스트에 담겼다면 jsonl형태로 저장해준다.
print("종목 정보 크롤링 완료")
with open('stocks.jsonl', 'w', encoding='utf-8') as f:
for stock in stocks:
json_line = json.dumps(stock, ensure_ascii=False)
f.write(json_line + '\n')
print("stocks.jsonl로 저장 완료")
코드를 돌리면 다음과 같이 jsonl로 잘 저장된 것을 확인 할 수 있다.
최종 코드는 다음과 같다.
import requests
from bs4 import BeautifulSoup
import re
import json
import time
markets = {
'코스피': {'sosok': '0', 'pages': 46},
'코스닥': {'sosok': '1', 'pages': 36}
}
stocks = []
for market_name, market_info in markets.items():
sosok = market_info['sosok']
total_pages = market_info['pages']
print(f"{market_name} 정보 가져오기 ...")
for page in range(1, total_pages + 1):
url = f'https://finance.naver.com/sise/sise_market_sum.naver?sosok={sosok}&page={page}'
resp = requests.get(url)
html_data = resp.text
soup = BeautifulSoup(html_data, 'html.parser')
tbody = soup.find('tbody')
for row in tbody.find_all('tr'):
tds = row.find_all('td')
if len(tds) < 12:
continue
stock_name_tag = tds[1].find('a')
if stock_name_tag:
stock_name = stock_name_tag.text.strip()
href = stock_name_tag['href']
stock_code_match = re.search(r'code=(\d+)', href)
stock_code = stock_code_match.group(1) if stock_code_match else ''
else:
stock_name = ''
stock_code = ''
current_price = tds[2].text.strip().replace(',', '')
market_cap = tds[6].text.strip().replace(',', '')
num_shares = tds[7].text.strip().replace(',', '')
foreign_ratio = tds[8].text.strip().replace(',', '')
volume = tds[9].text.strip().replace(',', '')
per = tds[10].text.strip()
roe = tds[11].text.strip()
stock_data = {
'구분': market_name,
'종목명': stock_name,
'종목코드': stock_code,
'현재가': current_price,
'시가총액': market_cap,
'상장주식수': num_shares,
'외국인비율': foreign_ratio,
'거래량': volume,
'PER': per,
'ROE': roe
}
stocks.append(stock_data)
time.sleep(0.5)
print("종목 정보 크롤링 완료")
with open('stocks.jsonl', 'w', encoding='utf-8') as f:
for stock in stocks:
json_line = json.dumps(stock, ensure_ascii=False)
f.write(json_line + '\n')
print("stocks.jsonl로 저장 완료")
도움이 되셨다면 공감과 댓글 부탁드립니다.
728x90
'ETC > Python' 카테고리의 다른 글
JQuery Ajax Post 파이썬으로 구현하기 (0) | 2024.11.05 |
---|---|
네이버 증권 파이썬(Python)을 이용하여 주식 정보 크롤링하기(Request, BeautifulSoup) 1편 (2) | 2024.10.28 |
파이썬 UUID 생성(uuid) 방법 How to generate uuid in python code (0) | 2024.10.22 |
(Python) 웹 페이지 모든 이미지 로컬 PC에 저장하기(BS4, Request, Image) (0) | 2024.10.18 |
CryptoJS AES Encrypt Python Version (2) | 2024.10.16 |