Skip to content
View Yu-billie's full-sized avatar
🎯
Focusing
🎯
Focusing

Block or report Yu-billie

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don't include any personal information such as legal names or email addresses. Markdown supported. This note will be visible to only you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
Yu-billie/README.md

Latest Update: Jan 2026

👋 Hi there, I'm Yumin!

🔭 I’m working on AI (especially NLP, LLM, AI Safety, Retrieval, and Benchmark Dataset Construction) with Applied Statistics & Finance/Business backgrounds.

👯 I’m always looking to collaborate on AI/Data Science projects (🤗Anywhere on Earth!! 🤗).


Korean version

👋 안녕하세요, 김유민 (Billie, 金侑珉)입니다!

중앙대학교에서 응용통계학소프트웨어·인문융합을 전공하고 있는 인공지능 연구원이자 데이터 엔지니어입니다.

현재 Language Intelligence Lab에서 학부 연구생으로 활동하고 있으며, 주로 Responsible AI, LLM Safety & Security, Bias Mitigation 분야를 연구하고 있습니다. 최신 AI 연구와 견고한 엔지니어링 시스템 간의 간극을 좁히는 것에 관심이 많습니다.

  • 🎓 Lab: Language Intelligence Lab (지도교수: 이환희)
  • 🔭 Interests: LLM Jailbreaking, Robustness, Hallucination, Automated Security

🏆 Awards & Honors

  • LG AI Research Hackathon: 13위 (LG 스마트 팩토리 이상 탐지 알고리즘 최적화)
  • 국가장학금: 한국장학재단 인문100년장학금 (2년 전액 등록금 지원) (3-4학년)
  • 중앙대학교 입학장학금: 특성화학과 우수입학 (2년 전액 등록금 지원) (1-2학년)

🔭 Current Project (1)

💊 알츠하이머 신약 개발을 위한 End-to-End AI 에이전트 연구개발 (한국과학기술정보통신부)

Developing an End-to-End AI Agent for Alzheimer's Drug Discovery

현재 거대 언어 모델(LLM)을 기반으로 문헌 탐색부터 분자 설계, 물성 예측 시뮬레이션까지의 전 과정을 자율적으로 수행하는 능동형 신약 개발 에이전트를 연구 및 개발하고 있습니다. 기존의 수동적인 스크리닝 과정을 자동화하여 신규 구조(Novel Structure) 발굴을 목표로 합니다.


🔭 Current Project (2)

🚀 개인화된 맞춤형 증권투자 포트폴리오 운용을 위한 설명가능한 대화형 인공지능 시뮬레이션/추천시스템 프로덕트 개발 (한화생명)

Explainable Conversational AI for Personalized Portfolio Management (Interactive AI Simulation & Recommender System for Tailored Investments)

사용자 맞춤형 포트폴리오를 구성하고 운용하며, 의사결정 과정을 설명할 수 있는 대화형 AI 에이전트 및 추천 시스템을 개발하고 있습니다.


📚 Selected Publications

  • [EMNLP 2025 Main] Keep Security! Benchmarking Security Policy Preservation in LLM Contexts Against Indirect Attacks

    • Yumin Kim*, Hwan Chang*, YongHyeon Jun, Hwanhee Lee
    • 간접적인 프롬프트 주입 공격(Indirect Prompt Injection) 상황에서 LLM이 보안 정책을 얼마나 잘 준수하는지 평가하는 벤치마크를 제안했습니다.
  • [EACL 2026 Main] Personality Editing for Language Models through Relevant Knowledge Editing

    • Seojin Hwang, Yumin Kim, Byeongjeong Kim, Donghoon Shin (University of Washington, Seattle, WA, USA), Hwanhee Lee
    • 심리학적 설문을 자아 참조(Self-referential) 지식으로 변환하고, 지식 편집(Knowledge Editing) 기법을 활용하여 단 12개의 쿼리만으로도 LLM의 성격을 효율적이고 견고하게 제어하는 PALETTE 프레임워크를 제안했습니다.
  • [COLING 2024] KoCoSa: Korean Context-aware Sarcasm Detection Dataset

    • Yumin Kim*, Heejae Suh*, Mingi Kim, Dongyeon Won*, Hwanhee Lee
    • 한국어 문맥을 반영하여 반어법(Sarcasm/Irony)을 탐지할 수 있는 대화형 데이터셋을 구축했습니다.
  • [Preprint] Selective Demonstration Retrieval for Improved Implicit Hate Speech Detection

    • Yumin Kim, Hwanhee Lee (Under Review for LREC 2026)

🛠 Engineering Projects

🏗️ Data Engineering (ETL) & Pipeline

Focus: 데이터 추출(Extract), 변환(Transform), 적재(Load) 및 데이터 품질 관리(QA)

프로젝트 설명 (BI/Data Engineering Focus) 기술 스택
MultiLexNorm++ ETL Pipeline [NAACL Workshop] 다국어 텍스트 정규화를 위한 ETL 파이프라인 구축. 비정형 원천 데이터(Raw Data)로부터 노이즈를 제거하고 표준화된 포맷으로 변환하는 자동화 스크립트 개발 및 데이터 무결성 검증 수행. Python Pandas Regex Bash
KoCoSa Dataset Construction [COLING 2024 / 특허 등록] 반어법 탐지 모델 학습을 위한 고품질 데이터셋 구축. 웹 크롤링부터 데이터 스키마 설계, 전처리(Preprocessing), 라벨링 검수 로직까지 End-to-End 데이터 파이프라인 설계 및 적재. Python SQL Selenium JSON
CoPriva Benchmark Pipeline [EMNLP 2025] 보안 정책 벤치마크 데이터셋(CoPriva) 구축. LLM 공격 시나리오 시뮬레이션을 통해 데이터를 생성(Generation)하고, 정해진 보안 제약조건(Constraint) 기반으로 유효 데이터를 필터링/적재하는 자동화 파이프라인 구현. Python HuggingFace SQL

🤖 AI Agents & Research Engineering

프로젝트 설명 기술 스택
AgentBeats (UC Berkeley RDI) LLM 에이전트의 안전성(Safety) 평가 벤치마크 개발. 아부성(Sycophancy), 견고성, 오류 수정 능력 등을 측정하는 평가지표 로직 구현 및 테스트 자동화. Python LLM Agents

📊 Data Science (for Manufacturing Industry)

프로젝트 설명 기술 스택
Smart Factory Anomaly Detection [LG AI Research 해커톤 (LG Aimers)] 제조 공정 로그 데이터를 활용한 이상 탐지(Anomaly Detection) 모델 개발 및 불량률 최소화를 위한 데이터 분석 (Top 13/495). Python SQL Scikit-learn

💰 Data Analysis (for Investment/Quant)

프로젝트 설명 기술 스택
Portfolio Optimization GICS 섹터 기반의 주식 포트폴리오 최적화(Efficient Frontier, Sharpe Ratio) 모델링 및 리스크 분산 시뮬레이션 구현. 데이터 기반 투자 의사결정 지원 시스템 프로토타입 개발. Python Pandas PyPortfolioOpt
Financial Domain Analytics 증권 분석을 위한 시계열 데이터 전처리(SQL/Python) 및 기업 공시 사업보고서(비정형 데이터) NLP 분석을 통한 펀더멘털 리서치 지표 추출. Python SQL NLP

💻 Tech Stack

Languages Python SQL Java C Shell Script JavaScript HTML5 CSS3

GenAI & LLM GPT Llama Gemini Qwen DeepSeek KLUE

Data Science & Visualization Scikit-Learn PyTorch CUDA Tableau Matplotlib Gephi MSTR

Infrastructure, Database & DevOps AWS Google Cloud MySQL Oracle Docker Kubernetes Linux

Web & Backend Spring Boot React Information Retrieval

Tools & Collaboration VS Code Eclipse Git Slack Notion


Yumin's GitHub Stats

Pinned Loading

  1. CoPriva CoPriva Public

    Forked from hwanchang00/CoPriva

    [EMNLP2025 main] CoPriva

    Python

  2. KoCoSa_sarcasm_detection KoCoSa_sarcasm_detection Public

    Repository for "KocoSa: Korean Context-aware Sarcasm Detection Dataset" accepted in COLING 2024.

    Python 8 2

  3. LG-AI-Research-Smart-Factory-Anomaly-Detection LG-AI-Research-Smart-Factory-Anomaly-Detection Public

    Ranked in both 36th/495 (1st round) and 13th/34 (final round) in Anomaly Detection Competition hosted by LG AI Research, South Korea.

    Jupyter Notebook 2

  4. hate_explainable hate_explainable Public

    Explainable Hate Speech Detection using NLP Model Reasoning

    Jupyter Notebook

  5. CUAI-CAU/2023-1_Study_NLPImplement CUAI-CAU/2023-1_Study_NLPImplement Public

    NLP 논문 구현 스터디 입니다.

    Jupyter Notebook

  6. CUAI-CAU/2023-1_Study_PRML CUAI-CAU/2023-1_Study_PRML Public

    PRML 스터디입니다.