[코드 리디자인 일지] Ep.1: 낯선 자식 내 자식으로 만들기 ①

🤚🏻 더 나은 개발자 하기/🎨 코드 리디자인 일지

[코드 리디자인 일지] Ep.1: 낯선 자식 내 자식으로 만들기 ①

JanginTech 2025. 8. 20. 15:31

코드 리팩토링.

드디어.

정리.

한다

!!!!!!!

리팩토링 과정이 길고도 험난할 거 같아 아예 시리즈화해서 정리하면 나중에 읽는 재미가 있겠다 싶어서 제목을 붙여봤다.

남들이 보기에 어떤진 모르겠지만 일단 난 마음에 든다 고급진 느낌도 나고 ㅎㅎ😄

우선 어떤 메서드 하나를 먼저 고쳐보려고 한다.

사실 이게 중요도가 높은 리팩토링 작업은 아니지만

초반에 후루룩(?) 만들어버린 메서드라 아직 남의 자식 같기도 하고,,, 좀 친해져야겠어서 말이다 ㅎㅎ

문제점

soup = BeautifulSoup(html_content, 'html.parser')를 반복 생성하고 있다
태그 제거/unwrap을 여러 번 루프하고 있음
a[href] 처리와 테이블 마커 추가가 섞여있어 분리하기 어렵고, 중간에 table_str = table_str.replace 와 같은 문자열 교체 코드가 분산되어 있어 결과적으로 뭐 하는 for문인지 쉽게 파악하기 어려움

목표

BeautifulSoup 파싱 1회로 끝내자
불필요한 태그/속성 제거단은 단일 함수로 통합하자(그거만 쏘옥 부르게)
링크 치환은 한 루프에서 끝내자(번거로우니까)
테이블 분리와 body 정리는 한 함수에서 반환하도록 하자

교체 설계

정규식 사전 컴파일: 루프내 재컴파일 제거
태그/속성 제거 표준화: 250820 현재 크게 2가지로 나뉘어서 이걸 분리하려 한다 -> 공통(unwrap), FAQ 전용(unwrap) 분리
테이블 루프 1회로:
- <a>에서 linked_seq 추출 -> [linkedN]으로 교체
- [tableN] 마커를 앞에 붙이고 table.decompose()
반환:
- str: 테이블이 제거된 body
- str: 마커+원본테이블 HTML
- list: 링크 seq 리스트

구현 시작: HTML 정리·테이블/링크 추출

흩어져있는 기능들을 결에 맞게 모아서 하나의 함수로 일원화하자.

BEFORE

def extract_and_clean_html_tables(html_string, is_faq=False):
    soup = BeautifulSoup(html_string, 'html.parser')

    # ① 불필요 태그 제거(여러 번 루프)
    for tag in soup.find_all(['span','strong','hr','a','font','img']):
        tag.unwrap()
    if is_faq:
        for tag in soup.find_all(['p','br','div']):
            tag.unwrap()

    # ② table 속성 제거(여러 번 루프)
    for t in soup.find_all(['table','tr','td','tbody']):
        for attr in ['style','width','border','cellpadding','cellspacing']:
            t.attrs.pop(attr, None)

    tables_content = []
    linked_seq_list = []
    table_index = 1

    # ③ 테이블 순회 중간에 a[href] 처리 + 마커 문자열 조작 + 제거
    for table in soup.find_all('table'):
        for a_tag in table.find_all('a', href=True):
            # href에서 /특정URL/<숫자> 추출
            parts = a_tag['href'].split('/특정URL/')
            if len(parts) > 1:
                m = re.search(r'\d+', parts[1])
                if m:
                    seq = m.group(0)
                    linked_seq_list.append(seq)
                    marker = f"[linked{len(linked_seq_list)}]"
                    # 문자열 치환/대체
                    table_str = str(table)
                    table_str = table_str.replace(a_tag['href'], marker)
                    # ...

        marker = f"[table{table_index}]"
        tables_content.append(marker + "\n" + str(table) + "\n")
        table.decompose()
        table_index += 1

    clean_html = str(soup)
    return clean_html, tables_content, linked_seq_list

모으기

1. BeautifulSoup(html, 'html.parser') 다중 호출

2. 불필요 태그 제거 루프들(span/strong/font/hr/a/img, FAQ 시 p/br/div)

3. <table> 내부 style/width/border/cellpadding/cellspacing 속성 제거

4. <a href>에서 /linkPageDetailPop/<숫자> 추출 → [linkedN] 치환

5. [tableN] 마커 생성 + table.decompose() (본문에서 테이블 제거)

6. 최종 clean_html(본문), tables_content(마커+테이블 HTML), linked_seq_list 반환

[1] 루프 통합: 태그 제거 루프

총 3가지를 제거함

1. 공통 제거: span, strong, font, hr, a, img

2. FAQ 전용: p, br, div

3. 빈 텍스트 노드 제거(기존엔 산발적으로 처리 또는 미처리): 이 로직은 이 메서드 호출 전에도 쓰이는 로직으로 똑같은 처리를 열 러 번 해주고 있었다.. ~~이게 바로 무지성 복붙의 결과~~

def _unwrap_tags(soup: BeautifulSoup, is_faq: bool) -> None:
    targets = set(UNWRAP_COMMON) | (UNWRAP_FAQ if is_faq else set())
    # BeautifulSoup는 set형 tag명도 허용됨 (출처: chatgpt ㅎㅎ)
    for tag in soup.find_all(targets):
        tag.unwrap()
    # 빈 텍스트 노드 제거
    for el in list(soup.find_all(string=True)):
        if isinstance(el, NavigableString) and not el.strip():
            el.extract()

사실 이건 지피티한테 짜달라한 코드다.

' 공통 태그를 상수화해야겠다'고 생각했는데 지피티도 마찬가지였나 보다 ㅎㅎ

나는 리스트로 태그 검색하게 했었는데, 지피티는 set타입으로 검색을 하게끔 짰다.

뭐 사실.. 어차피 문서에서 등장하는 순서대로 처리할 거니까 list냐 set냐가 여기서 중요하진 않다..ㅎㅎ

[2] 메서드: 테이블 내부 태그 처리

def _clean_table_attrs(soup: BeautifulSoup) -> None:
    for td in soup.find_all(["table","tr","td","tbody"]):
        for attr in ("style","width","border","cellpadding","cellspacing"):
            td.attrs.pop(attr, None)

[3] 메서드: 링크 추출 및 치환

def _extract_link_seq_and_replace(table: Tag, linked_seq_list: list[str]) -> None:
    for a in table.find_all("a", href=True):
        m = RE_LINK_SEQ.search(a.get("href") or "")
        if not m:
            continue
        linked_seq_list.append(m.group(1))
        a.replace_with(f"[linked{len(linked_seq_list)}]")

이건 개인적으로 맘에 드는 메서드다.

BEFORE

AFTER

for table in soup.find_all('table'):
        for a_tag in table.find_all('a', href=True):
            # href에서 /linkPageDetailPop/<숫자> 추출
            parts = a_tag['href'].split('/linkPageDetailPop/')
            if len(parts) > 1:
                m = re.search(r'\d+', parts[1])
                if m:
                    seq = m.group(0)
                    linked_seq_list.append(seq)
                    marker = f"[linked{len(linked_seq_list)}]
..

def _extract_link_seq_and_replace(table: Tag, linked_seq_list: list[str]) -> None:
    for a in table.find_all("a", href=True):
        m = RE_LINK_SEQ.search(a.get("href") or "")
        if not m:
            continue
        linked_seq_list.append(m.group(1))
        a.replace_with(f"[linked{len(linked_seq_list)}]")

split 대신 정규식 검색을 썼다.

굳이 잘라낼 필요 없이 re.search는 href 전체 문자열을 스캔해주니까 해당 URL뒤에 오는 숫자 seq를 바로 잡아서 리스트에 저장 + 치환하는데 문제없이 작동한다.

이 코드를 지피티한테 보여주니까 지피티는 이렇게 말하더라:

_extract_link_seq_and_replace(table, linked_seq_list)

기존 위치(스크린샷 매칭)

스샷에서 for a_tag in table.find_all('a', href=True): ...
- parts = a_tag['href'].split('/url/')
- re.search(r'\d+', parts[1])
- table_str = str(table); table_str.replace(...); 같은 문자열 기반 치환

효과

DOM 수준 치환으로 안정성↑(문자열 치환 누락/깨짐 방지)
정규식 사전 컴파일로 반복 비용↓ (RE_LINK_SEQ)

DOM 수준 치환? 정규식 '사전 컴파일'?

좀 더 찾아봐야겠는데..? 이건 다음 포스트에..

'🤚🏻 더 나은 개발자 하기 > 🎨 코드 리디자인 일지' 카테고리의 다른 글

LLM에게 일 시키기: HTML 테이블 파싱에서 시작된 삽질과 해답 (0)	2025.09.22
[Websocket] 웹소켓 로그 ai search에 적재: 스트리밍 단일 관리 (0)	2025.09.21
🧠 env: “설정값, 그렇게 자주 불러와도 되는 줄 알았죠?” / 나: “아니였나요?” (0)	2025.08.28

현재글[코드 리디자인 일지] Ep.1: 낯선 자식 내 자식으로 만들기 ①

장인테크 JanginTech

장인정신으로 장인테크🖐🏻

Python, Git, 정처기 실기 복원 문제, 오늘의 오답노트, rag, CVE, LLM, 랭체인, 네관사2급, openAI, 리눅스, 보안, tcp, 정처기 실기, 네트워크관리사, 클라우드, Linux, langchain, 리마2급2차, AWS,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

장인테크 JanginTech