Alireza Shojaei A-SHOJAEI

Alireza Shojaei

Curious mind building production-grade AI/ML systems. Focused on novel model architectures, uncertainty quantification, and efficient training strategies.

Selected Projects

LLM Inference & Efficient Fine-Tuning

adaptive-contrastive-curriculum-for-multitask-knowledge-transfer - Multi-task learning with adaptive curriculum and contrastive loss on MMLU
adaptive-curriculum-learning-for-domain-transfer-in-llm-evaluation - Curriculum learning for LLM domain transfer on MMLU
adaptive-difficulty-curriculum-mmlu-with-uncertainty-pacing - Uncertainty-paced curriculum learning for MMLU evaluation
adaptive-reasoning-chain-distillation - Chain-of-thought reasoning distillation with adaptive selection
CascadeExit-Research - Adaptive early-exit speculative decoding for LLM inference. 1.76x speedup on Llama-3.2-3B with SwiGLU exit adapters trained on WikiText-103
contrastive-curriculum-mmlu-with-adaptive-difficulty-sampling - Contrastive learning with adaptive difficulty sampling on MMLU
emergent-reasoning-via-grpo - Emergent chain-of-thought reasoning via GRPO on Qwen2.5-3B
instruction-complexity-aware-lora-routing - Mixture-of-LoRA-experts with dynamic instruction routing on Alpaca
meta-adaptive-prompting-for-multitask-reasoning - Meta-adaptive prompting strategies for multi-task reasoning
metacognitive-confidence-calibrated-mmlu-reasoning - Metacognitive confidence calibration for MMLU reasoning
MoLE-LoRA - Mixture of LoRA Experts with BERT-tiny router on Llama-3.2-3B. 73% memory savings, evaluated on MMLU/GSM8K/HellaSwag/ARC
wiki-longctx-ssm-vs-transformer - Comparative analysis of SSM (Mamba) vs Transformer architectures for long-context modeling

NLP & Question Answering

adaptive-retrieval-qa-with-answerability-calibration - Retrieval-augmented QA with answerability calibration on SQuAD 2.0
contrastive-hierarchical-retrieval-augmented-qa-with-difficulty-routing - Contrastive hierarchical retrieval-augmented QA with difficulty routing
contrastive-qa-verifier-with-adversarial-unanswerable - Dual-encoder QA verification with adversarial unanswerable detection
genre-adaptive-nli-summarization-validator - Cross-genre NLI-based summarization validation on CNN/DailyMail + MultiNLI
hierarchical-contrastive-qa-with-adversarial-unanswerable-detection - Hierarchical span prediction with contrastive learning on SQuAD 2.0
legal-clause-risk-scorer - DeBERTa-v3 multi-task contract clause risk assessment on CUAD + LEDGAR
nq-structure-aware-qa - Structure-aware QA on Natural Questions
wiki-evidence-hallucination-detector - Evidence-based hallucination detection using Wikipedia

Information Retrieval

adaptive-dpr-nq-retriever - Adaptive DPR retriever on Natural Questions
adaptive-hybrid-msmarco-retrieval - Adaptive hybrid sparse-dense retrieval on MS MARCO
adaptive-late-interaction-retrieval - ColBERT-style late-interaction retrieval with hard-negative mining on MS MARCO
adaptive-msmarco-dpr - Adaptive hard-negative DPR for MS MARCO passage retrieval
aurora-hybrid-msmarco - Query-adaptive sparse-dense hybrid retrieval on MS MARCO
contrastive-retrieval-reranking-with-adaptive-hard-negative-mining - Contrastive reranking with adaptive hard negative mining
entropy-colbert-msmarco - Entropy-guided ColBERT late-interaction retrieval on MS MARCO
marco-matryoshka-retrieval - Matryoshka dense retrieval on MS MARCO
matryoshka-dense-retrieval-msmarco - Matryoshka representation learning for dense retrieval on MS MARCO
msmarco-adaptive-hybrid-retrieval - Adaptive hybrid retrieval for MS MARCO passage ranking
msmarco-budgeted-neural-retrieval - Budget-aware neural retrieval on MS MARCO
msmarco-caldera-retrieval - CALDERA retrieval pipeline on MS MARCO
msmarco-calibrated-reranker - Calibrated neural reranking on MS MARCO
msmarco-colbert-curriculum - ColBERT with curriculum learning on MS MARCO passage retrieval
msmarco-colbertv2-pruning - ColBERTv2 with token pruning for efficient MS MARCO retrieval
msmarco-distilled-hybrid-retrieval - Distilled hybrid retrieval for MS MARCO passage ranking
msmarco-hybrid-retrieval - Hybrid BM25 + dense retrieval on MS MARCO
msmarco-hybrid-retrieval-lab - Experimental hybrid retrieval on MS MARCO
msmarco-matryoshka-curriculum-retrieval - Matryoshka curriculum retrieval on MS MARCO
msmarco-qatp-colbert - Query-adaptive token pruning for ColBERT on MS MARCO
q-pact-msmarco-retrieval - Q-PACT query-adaptive token pruning for late-interaction retrieval
so-dense-retrieval-hard-negatives - Dense retrieval with hard negative mining on Stack Overflow
so-duplicate-retrieval-lab - Duplicate question retrieval on Stack Overflow
stackdup-dual-encoder-retrieval - Dual-encoder duplicate detection on Stack Overflow
wikilink-graph-retrieval - Graph-enhanced retrieval using Wikipedia link structure
wikiqa-distilled-hybrid-retriever - Distilled hybrid retrieval for WikiQA answer selection

Multimodal & Generative AI

3dgs-depth-regularized - 3D Gaussian Splatting with depth regularization on Mip-NeRF 360
adaptive-noise-schedule-diffusion-with-clip-guidance - Adaptive noise schedule diffusion with CLIP guidance
coco-rag-captioning - Retrieval-augmented image captioning with BLIP and LoRA on COCO
hierarchical-diffusion-refinement-with-aesthetic-consistency - Multi-stage diffusion with aesthetic consistency loss for coherent multi-resolution generation
hierarchical-diffusion-rlhf-caption-refinement - Hierarchical diffusion with RLHF caption refinement
hierarchical-diffusion-with-preference-guided-refinement - Hierarchical diffusion with preference-guided refinement
iterative-refinement-text-to-image-with-preference-guided-diffusion - Iterative text-to-image generation with preference-guided diffusion
multi-objective-preference-diffusion-for-controlled-text-to-image - Multi-objective preference diffusion for controlled text-to-image
multimodal-contrastive-captioning-with-preference-aligned-generation - Multimodal contrastive captioning with preference alignment
preference-guided-diffusion-steering - Preference-guided steering for diffusion models
preference-guided-image-captioning-alignment - CLIP + GPT-2 with DPO preference alignment on COCO and UltraFeedback
progressive-diffusion-distillation-with-adaptive-step-curriculum - Progressive diffusion distillation with adaptive step curriculum
rectified-flow-generation - Rectified Flow (1-RF) for unconditional CIFAR-10 generation. FID-50K of 5.39 with 100 Euler steps, surpassing published 1-RF baseline of 6.18

Computer Vision

adaptive-panoptic-segmentation-with-cross-scale-attention-fusion - Panoptic segmentation with cross-scale attention fusion
adaptive-quantization-aware-serving-with-dynamic-precision - Dynamic INT8/FP16/FP32 precision switching with quantization-aware training on CIFAR-10
adaptive-scale-aware-panoptic-segmentation-with-boundary-refinement - Scale-aware panoptic segmentation with boundary refinement
adaptive-scale-fusion-urban-segmentation - Adaptive scale fusion for urban scene segmentation
adverse-weather-semantic-segmentation-robustness-benchmark - Semantic segmentation robustness benchmark under adverse weather
aerial-building-footprint-segmentation-with-boundary-refinement - U-Net++ with EfficientNet-B4 for aerial building footprint segmentation
adversarial-uncertainty-calibration-for-medical-diagnosis - Adversarial uncertainty calibration for medical image diagnosis
coco-boundary-calibrated-instance-seg - Boundary-calibrated instance segmentation on COCO
coco-detr-lora - LoRA-adapted DETR for object detection on COCO
coco-tailcal-detr - Tail-class calibrated DETR on COCO
coco-uncertainty-selftrain - Uncertainty-guided self-training on COCO
densenet-multilabel-chest-xray-pathology-detection - DenseNet-121 multi-label chest X-ray pathology detection on NIH ChestX-ray14
hierarchical-attention-fusion-urban-scene-parsing - Hierarchical attention fusion for urban scene parsing
pet-breed-uncertainty-aware-classifier - EfficientNet-B0 with MC Dropout uncertainty on Oxford-IIIT Pet (7,393 images)
progressive-uncertainty-aware-pretraining-medical-xray - Progressive uncertainty-aware pretraining for medical X-ray classification
rf-detr-detection - RF-DETR real-time object detection: 56.4 AP on COCO val2017 at 163 FPS
tailforge-lvis-ovseg - Frequency-aware open-vocabulary segmentation with logit adjustment on LVIS
uncertainty-aware-chexpert-diagnosis - Uncertainty-aware diagnosis on CheXpert chest X-rays
uncertainty-aware-hierarchical-medical-diagnosis-with-credal-sets - Hierarchical medical diagnosis with credal set uncertainty
urban-occlusion-aware-depth-estimation - Occlusion-aware monocular depth estimation for urban scenes
urban-occlusion-aware-segmentation - Occlusion-aware urban segmentation with SegFormer + DeepLabV3+ ensemble

Molecular ML & Graph Networks

adaptive-spectral-attention-heterogeneous-molecular-property-prediction - Spectral attention for heterogeneous molecular property prediction
adaptive-spectral-message-passing-for-molecular-scaffold-learning - Spectral message passing for scaffold-based molecular learning on BBBP
adaptive-spectral-rewiring-for-heterogeneous-molecular-graphs - Spectral rewiring for heterogeneous molecular graphs
adaptive-spectral-temporal-gnn-for-molecular-toxicity-prediction - Spectral-temporal GNN for toxicity prediction on Tox21 with curriculum learning
hierarchical-attention-pooling-for-molecular-scaffold-transfer - Hierarchical attention for molecular scaffold transfer on MoleculeNet BBBP
hierarchical-message-passing-with-curriculum-weighting-for-molecular-toxicity - Hierarchical message passing with curriculum weighting for toxicity
molecular-scaffold-aware-multi-task-toxicity-prediction - Scaffold-aware GCN with attention pooling on Tox21 (7,823 molecules)
molecular-scaffold-transfer-learning - Transfer learning across molecular scaffolds
pcqm4mv2-3d-prior-distillation - Distilling 3D quantum priors into 2D graph transformers on PCQM4Mv2
spectral-temporal-curriculum-molecular-gap-prediction - Spectral graph wavelets with curriculum learning on PCQM4Mv2 (3.7M molecules)
spectral-temporal-curriculum-molecular-gaps - Spectral-temporal curriculum learning for molecular gap prediction
temporal-drug-interaction-prediction-with-heterogeneous-molecular-graphs - Temporal drug interaction prediction with heterogeneous graphs

Genomics & Bioinformatics

mamba-genomic-classification - Mamba SSM for genomic sequence classification: 18-task benchmark vs CNN and Transformer

Tabular ML & Financial

adaptive-feature-importance-reweighting-credit-risk - Adaptive feature importance reweighting for credit risk
adaptive-feature-interaction-learning-with-dynamic-gating - Hierarchical feature interaction learning with adaptive gating
adaptive-feature-interaction-networks-with-dynamic-gating - Feature interaction networks with dynamic gating for tabular data
adaptive-feature-selection-with-uncertainty-aware-ensemble-for-fraud-detection - Adaptive feature selection with uncertainty-aware ensemble for fraud detection
adaptive-gating-network-for-heterogeneous-tabular-ensembles - Gating network for heterogeneous tabular ensembles
adaptive-gradient-boosting-with-dynamic-feature-synthesis - Gradient boosting with dynamic feature synthesis and meta-learning
adaptive-threshold-calibration-fraud-detection-with-cost-sensitive-curriculum - Cost-sensitive curriculum learning for fraud detection threshold calibration
adaptive-threshold-ensemble-with-uncertainty-calibration-for-fraud-detection - Threshold ensemble with uncertainty calibration for fraud detection
fairness-aware-income-prediction-with-constraint-optimization - Fairness-constrained LightGBM with Optuna on UCI Adult Census
medicaid-spending-analysis - Statistical and ML analysis of HHS Medicaid provider spending data
multi-horizon-credit-default-forecasting - Multi-horizon credit default forecasting
neural-two-tower-product-recommendation-with-contrastive-learning - Neural two-tower product recommendation with contrastive learning
temporal-credit-degradation-detector - Temporal credit degradation detection
temporal-drift-aware-fraud-detection-with-adversarial-validation - Drift-aware fraud detection with adversarial validation

Time Series & Forecasting

adaptive-hierarchical-reconciliation-with-attention-pruning - Hierarchical reconciliation with attention-based pruning
adaptive-horizon-meta-learning-hierarchical-forecasting - Horizon meta-learning for hierarchical forecasting
adaptive-traffic-anomaly-forecasting-with-uncertainty-quantification - Traffic anomaly forecasting with uncertainty quantification
hierarchical-attention-reconciliation-retail-forecasting - Attention-based reconciliation for retail forecasting
hierarchical-demand-forecasting-with-reconciliation - Hierarchical demand forecasting with reconciliation
hierarchical-demand-reconciliation-with-temporal-anomaly-feedback - Demand reconciliation with temporal anomaly feedback
hierarchical-forecast-reconciliation-with-uncertainty-quantification - Forecast reconciliation with uncertainty quantification
hierarchical-traffic-demand-forecasting-with-graph-informed-reconciliation - Graph-informed reconciliation for traffic demand forecasting
multi-horizon-probabilistic-energy-forecasting - Probabilistic energy forecasting with PatchTST, TFT, and N-BEATS

Audio & Speech

adaptive-chunk-conformer-rnnt - Adaptive-chunk Conformer RNN-T for streaming ASR on LibriSpeech
adaptive-streaming-asr-librispeech-musan - Noise-robust streaming conformer ASR with MUSAN augmentation
conformer-ctc-librispeech-rigorous - Rigorous Conformer CTC with SpecAugment curriculum on LibriSpeech 960h
cross-corpus-speech-emotion-recognition-with-wav2vec2 - Wav2Vec2 speech emotion recognition on RAVDESS and CREMA-D
cross-lingual-phoneme-aware-speech-enhancement-with-adaptive-masking - Cross-lingual phoneme-aware speech enhancement
cross-lingual-phonetic-adapter-speech-recognition - Cross-lingual phonetic adapter for speech recognition
ctc-selftrain-librispeech - CTC self-training on LibriSpeech
librispeech-mrm-wav2vec2 - Masked representation modeling with wav2vec2 on LibriSpeech
librispeech-semisup-conformer - Semi-supervised Conformer CTC with pseudo-labeling on LibriSpeech
librispeech-uncertainty-conformer - Uncertainty-aware Conformer CTC ASR on LibriSpeech
librispeech-uncertainty-consistency-asr - Consistency-regularized uncertainty-aware Conformer ASR on LibriSpeech
mls-adapter-asr - Adapter-based multilingual ASR on MLS
multi-scale-temporal-fusion-speaker-diarization-with-uncertainty - Multi-scale temporal fusion speaker diarization with uncertainty
multi-speaker-diarization-with-adaptive-boundary-refinement - Multi-speaker diarization with adaptive boundary refinement
noise-aware-conformer-asr - Noise-aware conformer for robust ASR
phoneme-aware-curriculum-diarization-with-adaptive-merging - Phoneme-aware curriculum diarization with adaptive merging
phoneme-aware-multilingual-asr-with-adaptive-layer-fusion - Phoneme-aware multilingual ASR with adaptive layer fusion
progressive-multi-task-speaker-diarization-with-asr - Progressive multi-task speaker diarization with joint ASR
robust-wav2vec2-consistency - Consistency-regularized wav2vec2 for robust ASR
ssl-asr-robust-librispeech - Self-supervised learning for robust ASR on LibriSpeech
streamconformer-distill-asr - StreamConformer distillation for efficient ASR
streaming-asr-adapters-librispeech - Adapter-based streaming ASR on LibriSpeech
streaming-asr-conformer-librispeech - Streaming conformer ASR on LibriSpeech
streaming-conformer-asr - Streaming conformer architecture for ASR
streaming-conformer-distill-librispeech - Knowledge distillation for streaming conformer ASR
ucc-librispeech-longform-asr - Unified context carry for long-form ASR on LibriSpeech

Systems & RL

adaptive-inference-router-with-cascade-serving - Multi-objective RL routing across quantized/pruned model cascades
adaptive-model-routing-serving-optimizer - Contextual bandit routing across FP32/FP16/INT8/pruned variants with 84.7% memory and 93.8% cost reduction
adaptive-model-serving-optimizer - UCB bandit-based model serving with latency/accuracy/cost optimization
adaptive-traffic-signal-control-via-hierarchical-multi-agent-rl - Hierarchical multi-agent RL for traffic signal control
adversarial-curriculum-offline-rl-with-uncertainty-weighted-conservative-learning - Adversarial curriculum offline RL with conservative learning
offline-robotic-manipulation-curriculum - Offline RL with curriculum learning for robotic manipulation
temporal-distribution-shift-detector-with-adaptive-ensemble-reweighting - Bayesian online ensemble reweighting for distribution shift detection

Tech Stack

Frameworks: PyTorch, HuggingFace Transformers, PyTorch Geometric, DGL, scikit-learn, XGBoost, LightGBM, FAISS, N-BEATS, PatchTST, TFT

Techniques: LoRA/PEFT, GNNs, contrastive learning, curriculum learning, uncertainty quantification, multi-task learning, DPO alignment, early-exit inference, spectral graph networks, GRPO reinforcement learning, knowledge distillation, Matryoshka representations, 3D Gaussian Splatting, rectified flow matching, Mamba SSMs, RF-DETR, speaker diarization, RNN-T

Infrastructure: MLflow, Docker, NVIDIA RTX 4090, NVIDIA RTX 3090 (dual GPU), AMD Threadripper 3960X

Provide feedback

Saved searches

Use saved searches to filter your results more quickly