Latest Update: Jan 2026
🔭 I’m working on AI (especially NLP, LLM, AI Safety, Retrieval, and Benchmark Dataset Construction) with Applied Statistics & Finance/Business backgrounds.
👯 I’m always looking to collaborate on AI/Data Science projects (🤗Anywhere on Earth!! 🤗).
- [Work Mail] kimym7801@cau.ac.kr
- [Gmail] alfhsenglishkimyumin@gmail.com
Korean version
중앙대학교에서 응용통계학과 소프트웨어·인문융합을 전공하고 있는 인공지능 연구원이자 데이터 엔지니어입니다.
현재 Language Intelligence Lab에서 학부 연구생으로 활동하고 있으며, 주로 Responsible AI, LLM Safety & Security, Bias Mitigation 분야를 연구하고 있습니다. 최신 AI 연구와 견고한 엔지니어링 시스템 간의 간극을 좁히는 것에 관심이 많습니다.
- 🎓 Lab: Language Intelligence Lab (지도교수: 이환희)
- 🔭 Interests: LLM Jailbreaking, Robustness, Hallucination, Automated Security
- LG AI Research Hackathon: 13위 (LG 스마트 팩토리 이상 탐지 알고리즘 최적화)
- 국가장학금: 한국장학재단 인문100년장학금 (2년 전액 등록금 지원) (3-4학년)
- 중앙대학교 입학장학금: 특성화학과 우수입학 (2년 전액 등록금 지원) (1-2학년)
Developing an End-to-End AI Agent for Alzheimer's Drug Discovery
현재 거대 언어 모델(LLM)을 기반으로 문헌 탐색부터 분자 설계, 물성 예측 시뮬레이션까지의 전 과정을 자율적으로 수행하는 능동형 신약 개발 에이전트를 연구 및 개발하고 있습니다. 기존의 수동적인 스크리닝 과정을 자동화하여 신규 구조(Novel Structure) 발굴을 목표로 합니다.
Explainable Conversational AI for Personalized Portfolio Management (Interactive AI Simulation & Recommender System for Tailored Investments)
사용자 맞춤형 포트폴리오를 구성하고 운용하며, 의사결정 과정을 설명할 수 있는 대화형 AI 에이전트 및 추천 시스템을 개발하고 있습니다.
-
[EMNLP 2025 Main] Keep Security! Benchmarking Security Policy Preservation in LLM Contexts Against Indirect Attacks
- Yumin Kim*, Hwan Chang*, YongHyeon Jun, Hwanhee Lee
- 간접적인 프롬프트 주입 공격(Indirect Prompt Injection) 상황에서 LLM이 보안 정책을 얼마나 잘 준수하는지 평가하는 벤치마크를 제안했습니다.
-
[EACL 2026 Main] Personality Editing for Language Models through Relevant Knowledge Editing
- Seojin Hwang, Yumin Kim, Byeongjeong Kim, Donghoon Shin (University of Washington, Seattle, WA, USA), Hwanhee Lee
- 심리학적 설문을 자아 참조(Self-referential) 지식으로 변환하고, 지식 편집(Knowledge Editing) 기법을 활용하여 단 12개의 쿼리만으로도 LLM의 성격을 효율적이고 견고하게 제어하는 PALETTE 프레임워크를 제안했습니다.
-
[COLING 2024] KoCoSa: Korean Context-aware Sarcasm Detection Dataset
- Yumin Kim*, Heejae Suh*, Mingi Kim, Dongyeon Won*, Hwanhee Lee
- 한국어 문맥을 반영하여 반어법(Sarcasm/Irony)을 탐지할 수 있는 대화형 데이터셋을 구축했습니다.
-
[Preprint] Selective Demonstration Retrieval for Improved Implicit Hate Speech Detection
- Yumin Kim, Hwanhee Lee (Under Review for LREC 2026)
Focus: 데이터 추출(Extract), 변환(Transform), 적재(Load) 및 데이터 품질 관리(QA)
| 프로젝트 | 설명 (BI/Data Engineering Focus) | 기술 스택 |
|---|---|---|
| MultiLexNorm++ ETL Pipeline | [NAACL Workshop] 다국어 텍스트 정규화를 위한 ETL 파이프라인 구축. 비정형 원천 데이터(Raw Data)로부터 노이즈를 제거하고 표준화된 포맷으로 변환하는 자동화 스크립트 개발 및 데이터 무결성 검증 수행. | Python Pandas Regex Bash |
| KoCoSa Dataset Construction | [COLING 2024 / 특허 등록] 반어법 탐지 모델 학습을 위한 고품질 데이터셋 구축. 웹 크롤링부터 데이터 스키마 설계, 전처리(Preprocessing), 라벨링 검수 로직까지 End-to-End 데이터 파이프라인 설계 및 적재. | Python SQL Selenium JSON |
| CoPriva Benchmark Pipeline | [EMNLP 2025] 보안 정책 벤치마크 데이터셋(CoPriva) 구축. LLM 공격 시나리오 시뮬레이션을 통해 데이터를 생성(Generation)하고, 정해진 보안 제약조건(Constraint) 기반으로 유효 데이터를 필터링/적재하는 자동화 파이프라인 구현. | Python HuggingFace SQL |
| 프로젝트 | 설명 | 기술 스택 |
|---|---|---|
| AgentBeats (UC Berkeley RDI) | LLM 에이전트의 안전성(Safety) 평가 벤치마크 개발. 아부성(Sycophancy), 견고성, 오류 수정 능력 등을 측정하는 평가지표 로직 구현 및 테스트 자동화. | Python LLM Agents |
| 프로젝트 | 설명 | 기술 스택 |
|---|---|---|
| Smart Factory Anomaly Detection | [LG AI Research 해커톤 (LG Aimers)] 제조 공정 로그 데이터를 활용한 이상 탐지(Anomaly Detection) 모델 개발 및 불량률 최소화를 위한 데이터 분석 (Top 13/495). | Python SQL Scikit-learn |
| 프로젝트 | 설명 | 기술 스택 |
|---|---|---|
| Portfolio Optimization | GICS 섹터 기반의 주식 포트폴리오 최적화(Efficient Frontier, Sharpe Ratio) 모델링 및 리스크 분산 시뮬레이션 구현. 데이터 기반 투자 의사결정 지원 시스템 프로토타입 개발. | Python Pandas PyPortfolioOpt |
| Financial Domain Analytics | 증권 분석을 위한 시계열 데이터 전처리(SQL/Python) 및 기업 공시 사업보고서(비정형 데이터) NLP 분석을 통한 펀더멘털 리서치 지표 추출. | Python SQL NLP |
Infrastructure, Database & DevOps