반응형

BeautifulSoup, HTML 구조에서 특정 태그의 요소 다루기 

 

글. 수알치 오상문

 

다음과 같은 HTML 페이지가 있을 때, 가져올 값은 datetime에 설정된 값이라고 가정하자.

 

<html>

<head>

</head>

<body>

    <time class="jlist_date_image" datetime="2025-04-02 14:30:12">Idag

       <span class="list_date">14:30</span>

</time>

</body>

</html>

 

혹시 BeautifulSoup 패키지가 없으면 에러가 발생하니 예제 진행에 앞서서 BeautifulSoup를 설치하자.

 

pip3 install beautifulsoup4       

또는 

pip install beautifulsoup4 

 

2022.06.18 현재 버전은 beautifulsoup4-4.11.1이다.

 

[소스 코드] 예제 

# pip3 install beautifulsoup4 
# 또는 pip install beautifulsoup4
# 예제 버전: beautifulsoup4-4.11.1
from bs4 import BeautifulSoup
html = '''<html>
<head>
</head>
<body>
    <time class="jlist_date_image" datetime="2025-04-02 14:30:12">Idag
       <span class="list_date">14:30</span>
</time>
</body>
</html>'''
soup = BeautifulSoup(html, features="html.parser")
# 방법 1 
for i in soup.findAll('time'):
    if i.has_attr('datetime'):
        print(i['datetime'])
# 방법 2 
val = BeautifulSoup(html, features="html.parser").time.attrs['datetime']
print(val)

 

[실행 결과]
2025-04-02 14:30:12
2025-04-02 14:30:12

반응형

+ Recent posts