일단 하고 보는 사람

나중보단 지금에 집중하되, 지금보단 나중에 완벽해지자💪🏻

rag 4

[중고신입 1년차] 검색 시스템 전환 플젝, 나의 회고 (feat. 내가 배운 것들)

현재상태:아직 업계가 명확히 정의되지 않은 상태라고 생각한다.AI 개발자? 백엔드? 엔터프라이즈/B2B 검색/지식 시스템 쪽 경험은 있음(내가 그동안 해왔던 거!) 내 방향성, 업계 전문성은 의도적으로 내가 고정하지 않으면 안 될 것 같다는 생각이 든다. 비교하는 거 별로 좋아하진 않는데.."같은 직무 내에서 "내가 상대적으로 더 잘하는 세부 분야/스킬이 있는가?" 1. 프롬프트 잘 짜는 거(차별성x)2. python api(누구나 함) 하지만 나는 이러한 고민들과 함께했다:1. 다중 서비스에서 검색/RAG가 망가지지 않게 설계하기2. 레거시 -> 신규로 전환할 때 쿼리/인덱스 타협(그니까, url 이름은 이대로가도 되는지? 아 이걸 바꾸면 다른 거랑 또 통일성이 깨지는데.. 왜 이 부분만 이렇게 설계..

LLM에게 일 시키기: HTML 테이블 파싱에서 시작된 삽질과 해답

🧩 배경내가 맡은 일 요약 ver:방대한 양의 HTML 웹 문서를 파싱 -> LLM을 통해 자연어 문장 만들기 -> 벡터화 -> 기타 작업 -> ai search에 적재하기 자세한 ver:외부 데이터 HTML 웹 문서를 파싱하고 LLM을 활용해 자연어 문장으로 변환하는 로직을 담당하고 있다.이 데이터는 Azure AI SEARCH에 적재된다.적재된 데이터를 가지고 다양한 후속 RAG 및 연산(하이브리드 검색 등)을 거치게 될 것이다. 문제는 수많은 클라이언트가 작성한 문서들이라 눈으로 볼 땐 비슷해 보여도 실제 태그를 까보면 그 구조는 천차만별이라는 점이다.이런 태그 난장판(?) 속에서 LLM이 이해할 수 있도록 데이터를 깔끔하게 정리하여 던저주는 선봉장 역할을 맡고 있다 LLM에 던지는 데이터는:문서..

💭 긴 텍스트 벡터화: 벡터화도 결국 사람처럼 "맥락"이 필요하다

https://honge1122.tistory.com/124 [나의 고민] 코드 짜고 나면 항상 찝찝해요요즘 부쩍 고민이 늘어 줄글을 쓰던 날이 늘었다.근데 맘 속의 응어리(?)가 풀리지 않아어떻게 할까 고민하다가이 과정을 나름 정리해서 어딘가 업로드(?)하는 것이 좋을 것 같다는 생각이 들었honge1122.tistory.com위 고민을 기록하고 나서 좋은 점:회사에서 과업을 미리 끝냈을 때 바로 주석으로 달려가서(?) 리팩토링을 할 기회를 get 할 수 있다!!! 🧩 배경 - 왜 이런 고민을 하게 되었는가? (팀 구조, 업무 환경 등)팀에서 내가 맡은 과업 중 하나로, Azure OpenAI 기반으로 LLM 응답을 임베딩/검색 등을 처리하는 로직을 짜야한다.당연한 말이지만 LLM(글 작성기..

LLM 2025.08.17

[오늘의실수]RAG 반환값이 없다⁉️→ 무응답도 응답이다

Tistory에는 너무 오랜만에 기록하는 거 같은데,, 일단 내가 하고 있는 일중 하나는 바로 LLM 데이터 쌓는 작업이다. 자세히 쓸 순 없지만 Azure AI Search에 적재한 HTML 문서에 특정 키워드에 대한 특정 항목을 특정 포맷에 맞춰 요약 출력하는 로직을 구현하다가 겪은 일이다. 📌 LLM 호출 결과의 부재.. 대체 왜?????그렇다. LLM 기반 RAG 로직 짜다가 겪은 일이다.데이터 흐름상 서치필드에 관한 파라미터도 정상적으로 흘러가고, 디버깅 과정에서도 query 값과 document 모두 이상이 없었다.너무 답답해서 각 필드 하나하나 뜯어봤는데 정. 확. 히. 일치했다. 그러나 LLM 호출 이후 반환값과 쿼리가 모두 빈 문자열로 처리되는 현상이 발생했다 😢처음에는 금방 해결할 ..

LLM 2025.06.03