Yumin Kim Yu-billie

Latest Update: Jan 2026

👋 Hi there, I'm Yumin!

🔭 I’m working on AI (especially NLP, LLM, AI Safety, Retrieval, and Benchmark Dataset Construction) with Applied Statistics & Finance/Business backgrounds.

👯 I’m always looking to collaborate on AI/Data Science projects (🤗Anywhere on Earth!! 🤗).

[Work Mail] kimym7801@cau.ac.kr
[Gmail] alfhsenglishkimyumin@gmail.com

Korean version

👋 안녕하세요, 김유민 (Billie, 金侑珉)입니다!

중앙대학교에서 응용통계학과 소프트웨어·인문융합을 전공하고 있는 인공지능 연구원이자 데이터 엔지니어입니다.

현재 Language Intelligence Lab에서 학부 연구생으로 활동하고 있으며, 주로 Responsible AI, LLM Safety & Security, Bias Mitigation 분야를 연구하고 있습니다. 최신 AI 연구와 견고한 엔지니어링 시스템 간의 간극을 좁히는 것에 관심이 많습니다.

🎓 Lab: Language Intelligence Lab (지도교수: 이환희)
🔭 Interests: LLM Jailbreaking, Robustness, Hallucination, Automated Security

🏆 Awards & Honors

LG AI Research Hackathon: 13위 (LG 스마트 팩토리 이상 탐지 알고리즘 최적화)
국가장학금: 한국장학재단 인문100년장학금 (2년 전액 등록금 지원) (3-4학년)
중앙대학교 입학장학금: 특성화학과 우수입학 (2년 전액 등록금 지원) (1-2학년)

🔭 Current Project (1)

💊 알츠하이머 신약 개발을 위한 End-to-End AI 에이전트 연구개발 (한국과학기술정보통신부)

Developing an End-to-End AI Agent for Alzheimer's Drug Discovery

현재 거대 언어 모델(LLM)을 기반으로 문헌 탐색부터 분자 설계, 물성 예측 시뮬레이션까지의 전 과정을 자율적으로 수행하는 능동형 신약 개발 에이전트를 연구 및 개발하고 있습니다. 기존의 수동적인 스크리닝 과정을 자동화하여 신규 구조(Novel Structure) 발굴을 목표로 합니다.

🔭 Current Project (2)

🚀 개인화된 맞춤형 증권투자 포트폴리오 운용을 위한 설명가능한 대화형 인공지능 시뮬레이션/추천시스템 프로덕트 개발 (한화생명)

Explainable Conversational AI for Personalized Portfolio Management (Interactive AI Simulation & Recommender System for Tailored Investments)

사용자 맞춤형 포트폴리오를 구성하고 운용하며, 의사결정 과정을 설명할 수 있는 대화형 AI 에이전트 및 추천 시스템을 개발하고 있습니다.

📚 Selected Publications

[EMNLP 2025 Main] Keep Security! Benchmarking Security Policy Preservation in LLM Contexts Against Indirect Attacks
- Yumin Kim*, Hwan Chang*, YongHyeon Jun, Hwanhee Lee
- 간접적인 프롬프트 주입 공격(Indirect Prompt Injection) 상황에서 LLM이 보안 정책을 얼마나 잘 준수하는지 평가하는 벤치마크를 제안했습니다.
[EACL 2026 Main] Personality Editing for Language Models through Relevant Knowledge Editing
- Seojin Hwang, Yumin Kim, Byeongjeong Kim, Donghoon Shin (University of Washington, Seattle, WA, USA), Hwanhee Lee
- 심리학적 설문을 자아 참조(Self-referential) 지식으로 변환하고, 지식 편집(Knowledge Editing) 기법을 활용하여 단 12개의 쿼리만으로도 LLM의 성격을 효율적이고 견고하게 제어하는 PALETTE 프레임워크를 제안했습니다.
[COLING 2024] KoCoSa: Korean Context-aware Sarcasm Detection Dataset
- Yumin Kim*, Heejae Suh*, Mingi Kim, Dongyeon Won*, Hwanhee Lee
- 한국어 문맥을 반영하여 반어법(Sarcasm/Irony)을 탐지할 수 있는 대화형 데이터셋을 구축했습니다.
[Preprint] Selective Demonstration Retrieval for Improved Implicit Hate Speech Detection
- Yumin Kim, Hwanhee Lee (Under Review for LREC 2026)

🛠 Engineering Projects

🏗️ Data Engineering (ETL) & Pipeline

Focus: 데이터 추출(Extract), 변환(Transform), 적재(Load) 및 데이터 품질 관리(QA)

프로젝트	설명 (BI/Data Engineering Focus)	기술 스택
MultiLexNorm++ ETL Pipeline	[NAACL Workshop] 다국어 텍스트 정규화를 위한 ETL 파이프라인 구축. 비정형 원천 데이터(Raw Data)로부터 노이즈를 제거하고 표준화된 포맷으로 변환하는 자동화 스크립트 개발 및 데이터 무결성 검증 수행.	`Python` `Pandas` `Regex` `Bash`
KoCoSa Dataset Construction	[COLING 2024 / 특허 등록] 반어법 탐지 모델 학습을 위한 고품질 데이터셋 구축. 웹 크롤링부터 데이터 스키마 설계, 전처리(Preprocessing), 라벨링 검수 로직까지 End-to-End 데이터 파이프라인 설계 및 적재.	`Python` `SQL` `Selenium` `JSON`
CoPriva Benchmark Pipeline	[EMNLP 2025] 보안 정책 벤치마크 데이터셋(CoPriva) 구축. LLM 공격 시나리오 시뮬레이션을 통해 데이터를 생성(Generation)하고, 정해진 보안 제약조건(Constraint) 기반으로 유효 데이터를 필터링/적재하는 자동화 파이프라인 구현.	`Python` `HuggingFace` `SQL`

🤖 AI Agents & Research Engineering

프로젝트	설명	기술 스택
AgentBeats (UC Berkeley RDI)	LLM 에이전트의 안전성(Safety) 평가 벤치마크 개발. 아부성(Sycophancy), 견고성, 오류 수정 능력 등을 측정하는 평가지표 로직 구현 및 테스트 자동화.	`Python` `LLM Agents`

📊 Data Science (for Manufacturing Industry)

프로젝트	설명	기술 스택
Smart Factory Anomaly Detection	[LG AI Research 해커톤 (LG Aimers)] 제조 공정 로그 데이터를 활용한 이상 탐지(Anomaly Detection) 모델 개발 및 불량률 최소화를 위한 데이터 분석 (Top 13/495).	`Python` `SQL` `Scikit-learn`

💰 Data Analysis (for Investment/Quant)

프로젝트	설명	기술 스택
Portfolio Optimization	GICS 섹터 기반의 주식 포트폴리오 최적화(Efficient Frontier, Sharpe Ratio) 모델링 및 리스크 분산 시뮬레이션 구현. 데이터 기반 투자 의사결정 지원 시스템 프로토타입 개발.	`Python` `Pandas` `PyPortfolioOpt`
Financial Domain Analytics	증권 분석을 위한 시계열 데이터 전처리(SQL/Python) 및 기업 공시 사업보고서(비정형 데이터) NLP 분석을 통한 펀더멘털 리서치 지표 추출.	`Python` `SQL` `NLP`

💻 Tech Stack

Languages

GenAI & LLM

Data Science & Visualization

Infrastructure, Database & DevOps

Web & Backend

Tools & Collaboration

Provide feedback

Saved searches

Use saved searches to filter your results more quickly