HiThink-Research repositories

GAGE

Public

General AI evaluation and Gauge Engine. A unified evaluation engine for LLMs, MLLMs, audio, and diffusion models.

agent game-arena sandbox-environmentllm llm-evaluation mllm-evaluation

Python

•5•40•3•1•Updated

Feb 11, 2026

FinMTM

Public

FinMTM: A Multi-Turn Multimodal Benchmark for Financial Reasoning and Agent Evaluation

finance benchmark financial-analysisai-evaluation ai-benchmarking financial-llm

Python

•0•21•0•0•Updated

Feb 6, 2026

BizFinBench.v2

Public

BizFinBench.v2: A Unified Offline–Online Bilingual Benchmark for Expert-Level Financial Capability Evaluation of LLMs

benchmark llm-evaluation llm-benchmarkingfinancial-llm

Python

•3•36•1•0•Updated

Jan 29, 2026

CCPO

Public

Compress2Focus: Efficient Coordinate Compression for Policy Optimization in Multi-Turn GUI Agents

llm vision-language-model gui-agentcomputer-use-agent

Python

•0•7•0•0•Updated

Jan 21, 2026

BizFinBench

Public

A Business-Driven Real-World Financial Benchmark for Evaluating LLMs

finance benchmark llmllm-evaluation llm-benchmarking

Python

•9•224•0•0•Updated

Jan 9, 2026

PuzzleClone

Public

PuzzleClone: An SMT-Powered Framework for Synthesizing Verified Mathematical Reasoning Data

data-science llm llm-training

Python

•

Apache License 2.0

•0•5•1•0•Updated

Jan 9, 2026

MME-Finance

Public

[MM 2025] A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning

finance multimodal llmllm-evaluation llm-benchmarking mmllm

Python

•

Apache License 2.0

•4•44•0•1•Updated

Jan 8, 2026

NEXUS-O

Public

[MM 2025] NEXUS-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision

omni audio-decoder llmllm-training

0•4•0•0•Updated

Oct 20, 2025

PolyhedronEvaluator

Public

PolyhedronEvaluator

Python

•0•2•0•0•Updated

Sep 19, 2025

Published_Papers

Public

0•0•0•0•Updated

Feb 17, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

HiThink Research

All

All

10 repositories

GAGE

FinMTM

BizFinBench.v2

CCPO

BizFinBench

PuzzleClone

MME-Finance

NEXUS-O

PolyhedronEvaluator

Published_Papers

All

All

Repositories list

10 repositories