Spaces:

jackkuo
/

llm-enzyme-kinetics-leaderboard

Sleeping

llm-enzyme-kinetics-leaderboard / app.py

github-actions[bot]

Update leaderboard from GitHub main branch

581fb86 5 months ago

28.8 kB

	"""
	LLM Enzyme Kinetics Extraction Benchmark Leaderboard
	Built with Gradio
	"""

	import gradio as gr
	import pandas as pd
	import plotly.graph_objects as go
	import plotly.express as px
	from datetime import datetime
	import json
	import os
	from pathlib import Path
	from auto_eval import BenchmarkEvaluator
	from utils import (
	load_leaderboard_data, format_metrics, get_leaderboard_summary,
	filter_leaderboard, get_top_n, create_comparison_data
	)

	# CSS for better styling
	custom_css = """
	.gradio-container {
	max-width: 1400px !important;
	}
	/* Compact spacing */
	.gradio-container .gap-4 {
	gap: 0.5rem !important;
	}
	.gradio-container .gap-6 {
	gap: 0.75rem !important;
	}
	.metric-card {
	background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
	padding: 15px;
	border-radius: 10px;
	color: white;
	text-align: center;
	margin-bottom: 10px !important;
	}
	/* Make leaderboard table taller with scrolling */
	.leaderboard-table {
	height: 1400px !important;
	margin-bottom: 0 !important;
	}
	.leaderboard-table > div {
	height: 1400px !important;
	overflow-y: auto !important;
	}
	.leaderboard-table table {
	width: 100% !important;
	}
	.leaderboard-table th, .leaderboard-table td {
	padding: 12px !important;
	min-height: 40px !important;
	}
	/* Eliminate all gaps around table and button */
	.leaderboard-table {
	margin: 0 !important;
	padding: 0 !important;
	}
	.leaderboard-table > div {
	margin: 0 !important;
	}
	/* Remove container padding around table section */
	.leaderboard-table + div, .leaderboard-table ~ div {
	margin-top: 0 !important;
	padding-top: 0 !important;
	}
	/* Reduce filter section spacing */
	.leaderboard-table ~ .form {
	gap: 0.5rem !important;
	}
	/* Compact tabs */
	.tabs {
	margin-bottom: 10px !important;
	}
	/* Remove extra spacing from gradio rows */
	.gradio-row {
	gap: 0.5rem !important;
	}
	"""

	# Initialize leaderboard data
	# Auto-detect correct data directory for both local and HuggingFace Space
	if os.path.exists('data'):
	# Running from leaderboard/ directory (HuggingFace Space)
	LEADERBOARD_DF = load_leaderboard_data('data')
	elif os.path.exists('leaderboard/data'):
	# Running from repository root
	LEADERBOARD_DF = load_leaderboard_data('leaderboard/data')
	else:
	# Fallback to default
	LEADERBOARD_DF = load_leaderboard_data()

	def create_leaderboard_table(
	model_provider: str = "All",
	ocr_type: str = "All",
	verified_only: bool = False,
	top_n: int = 50
	) -> pd.DataFrame:
	"""Create filtered leaderboard table"""
	filtered_df = filter_leaderboard(LEADERBOARD_DF, model_provider, ocr_type, verified_only)
	top_df = get_top_n(filtered_df, top_n)

	if top_df.empty:
	return pd.DataFrame(columns=["Rank", "Model", "Provider", "OCR", "Submitter", "Date",
	"Km (Exact)", "Km (±10%)", "kcat (Exact)", "kcat (±10%)",
	"kcat/Km (Exact)", "kcat/Km (±10%)", "Overall (Exact)", "Overall (±10%)"])

	# Format for display
	display_df = pd.DataFrame({
	'Rank': range(1, len(top_df) + 1),
	'Model': top_df['model_name'],
	'Provider': top_df['model_provider'],
	'OCR': top_df['ocr_type'],
	'Submitter': top_df['submitter'],
	'Date': top_df['submission_date'].dt.strftime('%Y-%m-%d'),
	'Km (Exact)': top_df['km_exact_match'].apply(format_metrics),
	'Km (±10%)': top_df['km_tolerance_match'].apply(format_metrics),
	'kcat (Exact)': top_df['kcat_exact_match'].apply(format_metrics),
	'kcat (±10%)': top_df['kcat_tolerance_match'].apply(format_metrics),
	'kcat/Km (Exact)': top_df['km_kcat_exact_match'].apply(format_metrics),
	'kcat/Km (±10%)': top_df['km_kcat_tolerance_match'].apply(format_metrics),
	'Overall (Exact)': top_df['overall_exact_match'].apply(format_metrics),
	'Overall (±10%)': top_df['overall_tolerance_match'].apply(format_metrics),
	})

	return display_df


	def create_summary_cards() -> str:
	"""Create summary statistics HTML"""
	summary = get_leaderboard_summary(LEADERBOARD_DF)

	html = f"""
	<div style="display: grid; grid-template-columns: repeat(4, 1fr); gap: 15px; margin-bottom: 20px;">
	<div style="background: linear-gradient(135deg, #667eea 0%, #764ba2 100%); padding: 20px; border-radius: 10px; color: white; text-align: center;">
	<div style="font-size: 14px; opacity: 0.9;">Total Submissions</div>
	<div style="font-size: 32px; font-weight: bold;">{summary['total_submissions']}</div>
	</div>
	<div style="background: linear-gradient(135deg, #f093fb 0%, #f5576c 100%); padding: 20px; border-radius: 10px; color: white; text-align: center;">
	<div style="font-size: 14px; opacity: 0.9;">Unique Models</div>
	<div style="font-size: 32px; font-weight: bold;">{summary['unique_models']}</div>
	</div>
	<div style="background: linear-gradient(135deg, #4facfe 0%, #00f2fe 100%); padding: 20px; border-radius: 10px; color: white; text-align: center;">
	<div style="font-size: 14px; opacity: 0.9;">Best Score</div>
	<div style="font-size: 32px; font-weight: bold;">{summary['best_score']:.1f}%</div>
	</div>
	<div style="background: linear-gradient(135deg, #43e97b 0%, #38f9d7 100%); padding: 20px; border-radius: 10px; color: white; text-align: center;">
	<div style="font-size: 14px; opacity: 0.9;">Average Score</div>
	<div style="font-size: 32px; font-weight: bold;">{summary['avg_score']:.1f}%</div>
	</div>
	</div>
	"""
	return html


	def create_score_comparison_chart() -> go.Figure:
	"""Create score comparison bar chart"""
	if LEADERBOARD_DF.empty:
	fig = go.Figure()
	fig.add_annotation(text="No submissions yet", xref="paper", yref="paper",
	x=0.5, y=0.5, showarrow=False)
	return fig

	# Get top 10 submissions
	top_10 = get_top_n(LEADERBOARD_DF, 10)

	fig = go.Figure()
	fig.add_trace(go.Bar(
	x=top_10['overall_exact_match'] * 100,
	y=top_10['model_name'] + ' (' + top_10['model_provider'] + ')',
	orientation='h',
	marker=dict(color='rgba(102, 126, 234, 0.8)'),
	text=top_10['overall_exact_match'].apply(lambda x: f'{x*100:.1f}%'),
	textposition='outside'
	))

	fig.update_layout(
	title='Top 10 Models - Exact Match Accuracy',
	xaxis_title='Accuracy (%)',
	yaxis_title='Model',
	height=400,
	margin=dict(l=20, r=20, t=40, b=20)
	)

	return fig


	def create_ocr_comparison_chart() -> go.Figure:
	"""Create OCR type comparison chart"""
	if LEADERBOARD_DF.empty:
	fig = go.Figure()
	fig.add_annotation(text="No submissions yet", xref="paper", yref="paper",
	x=0.5, y=0.5, showarrow=False)
	return fig

	ocr_stats = LEADERBOARD_DF.groupby('ocr_type')['overall_exact_match'].agg(['mean', 'count']).reset_index()

	fig = go.Figure()
	fig.add_trace(go.Bar(
	x=ocr_stats['ocr_type'],
	y=ocr_stats['mean'] * 100,
	marker=dict(color=['rgba(102, 126, 234, 0.8)', 'rgba(240, 147, 251, 0.8)', 'rgba(79, 172, 254, 0.8)']),
	text=ocr_stats['mean'].apply(lambda x: f'{x*100:.1f}%'),
	textposition='outside',
	name='Accuracy'
	))

	fig.update_layout(
	title='Performance by OCR Type',
	xaxis_title='OCR Type',
	yaxis_title='Average Exact Match (%)',
	height=400,
	margin=dict(l=20, r=20, t=40, b=20)
	)

	return fig


	def create_timeline_chart() -> go.Figure:
	"""Create submission timeline chart"""
	if LEADERBOARD_DF.empty:
	fig = go.Figure()
	fig.add_annotation(text="No submissions yet", xref="paper", yref="paper",
	x=0.5, y=0.5, showarrow=False)
	return fig

	df_sorted = LEADERBOARD_DF.sort_values('submission_date')
	df_sorted['cumulative_best'] = df_sorted['overall_exact_match'].cummax()

	fig = go.Figure()

	# Add all submissions as scatter
	fig.add_trace(go.Scatter(
	x=df_sorted['submission_date'],
	y=df_sorted['overall_exact_match'] * 100,
	mode='markers',
	name='Submissions',
	marker=dict(size=8, color='rgba(102, 126, 234, 0.5)'),
	text=df_sorted['model_name'],
	hovertemplate='%{text}<br>%{x}<br>%{y:.1f}%'
	))

	# Add best score line
	fig.add_trace(go.Scatter(
	x=df_sorted['submission_date'],
	y=df_sorted['cumulative_best'] * 100,
	mode='lines',
	name='Best Score',
	line=dict(color='rgba(67, 233, 123, 0.8)', width=2)
	))

	fig.update_layout(
	title='Submission Timeline & Progress',
	xaxis_title='Date',
	yaxis_title='Exact Match (%)',
	height=400,
	margin=dict(l=20, r=20, t=40, b=20),
	hovermode='x unified'
	)

	return fig


	def submit_result(
	model_name: str,
	model_provider: str,
	ocr_type: str,
	submitter: str,
	km_exact: float,
	km_tolerance: float,
	kcat_exact: float,
	kcat_tolerance: float,
	km_kcat_exact: float,
	km_kcat_tolerance: float,
	total_papers: int,
	notes: str
	) -> str:
	"""Submit a new result to the leaderboard"""
	try:
	# Calculate overall scores
	overall_exact = (km_exact + kcat_exact + km_kcat_exact) / 3
	overall_tolerance = (km_tolerance + kcat_tolerance + km_kcat_tolerance) / 3

	# Create submission data
	submission = {
	'submission_id': f"{datetime.now().strftime('%Y%m%d_%H%M%S')}_{submitter}",
	'model_name': model_name,
	'model_provider': model_provider,
	'ocr_type': ocr_type,
	'submitter': submitter,
	'submission_date': datetime.now().isoformat(),
	'km_exact_match': km_exact / 100,
	'km_tolerance_match': km_tolerance / 100,
	'kcat_exact_match': kcat_exact / 100,
	'kcat_tolerance_match': kcat_tolerance / 100,
	'km_kcat_exact_match': km_kcat_exact / 100,
	'km_kcat_tolerance_match': km_kcat_tolerance / 100,
	'overall_exact_match': overall_exact / 100,
	'overall_tolerance_match': overall_tolerance / 100,
	'total_papers': total_papers,
	'total_entries': total_papers * 3, # Approximate
	'notes': notes,
	'verified': False # Needs verification
	}

	# Save to data directory
	data_dir = Path("leaderboard/data")
	data_dir.mkdir(parents=True, exist_ok=True)

	submission_file = data_dir / f"{submission['submission_id']}.json"
	with open(submission_file, 'w') as f:
	json.dump(submission, f, indent=2)

	# Reload leaderboard data
	global LEADERBOARD_DF
	LEADERBOARD_DF = load_leaderboard_data()

	return f"✅ Submission successful! Your ID: {submission['submission_id']}\n\nPlease create a PR or contact the maintainer to verify your submission."

	except Exception as e:
	return f"❌ Error: {str(e)}"


	# Build Gradio interface
	with gr.Blocks(css=custom_css, title="LLM Enzyme Kinetics Extraction Benchmark") as demo:
	gr.Markdown(
	"""
	# 🧪 LLM Enzyme Kinetics Extraction Benchmark Leaderboard

	Welcome to the leaderboard for the LLM Enzyme Kinetics Golden Benchmark!
	This benchmark evaluates LLMs on extracting enzyme kinetic parameters (Km, kcat, kcat/Km)
	from scientific literature.

	📚 Dataset: 4,244 entries from 156 papers \| 🎯 Task: Extract kinetic parameters from OCR-processed papers
	"""
	)

	# Summary cards
	gr.HTML(create_summary_cards())

	with gr.Tabs():
	# Tab 1: Leaderboard Table
	with gr.TabItem("🏆 Leaderboard"):
	gr.Markdown("### Filter and Search")

	with gr.Row():
	model_provider_dropdown = gr.Dropdown(
	choices=["All", "OpenAI", "Anthropic", "Kimi", "Other"],
	value="All",
	label="Model Provider"
	)
	ocr_type_dropdown = gr.Dropdown(
	choices=["All", "mathpix", "kimi", "pymupdf", "glm_ocr"],
	value="All",
	label="OCR Type"
	)
	verified_checkbox = gr.Checkbox(
	label="Verified Only",
	value=False
	)
	top_n_slider = gr.Slider(
	minimum=10,
	maximum=100,
	value=50,
	step=10,
	label="Show Top N"
	)

	leaderboard_table = gr.Dataframe(
	label="Leaderboard",
	datatype=["markdown"] * 14,
	interactive=False,
	wrap=True,
	elem_classes=["leaderboard-table"]
	)

	refresh_btn = gr.Button("🔄 Refresh", variant="primary")
	refresh_btn.click(
	fn=create_leaderboard_table,
	inputs=[model_provider_dropdown, ocr_type_dropdown, verified_checkbox, top_n_slider],
	outputs=leaderboard_table
	)

	# Initial load
	demo.load(
	fn=create_leaderboard_table,
	inputs=[model_provider_dropdown, ocr_type_dropdown, verified_checkbox, top_n_slider],
	outputs=leaderboard_table
	)

	# Tab 2: Visualizations
	with gr.TabItem("📊 Visualizations"):
	with gr.Row():
	score_chart = gr.Plot(label="Top Models Comparison")
	ocr_chart = gr.Plot(label="OCR Type Comparison")

	with gr.Row():
	timeline_chart = gr.Plot(label="Submission Timeline")

	# Load charts
	demo.load(
	fn=lambda: [create_score_comparison_chart(), create_ocr_comparison_chart(), create_timeline_chart()],
	outputs=[score_chart, ocr_chart, timeline_chart]
	)

	# Tab 3: Auto-Evaluate (🚀 Run Benchmark in Space)
	with gr.TabItem("🚀 Auto-Evaluate"):
	gr.Markdown("""
	### 🎯 Run Full Benchmark Directly in the Space

	⚠️ Important Notes:
	- Your API key is only used for this evaluation and never stored
	- Results are automatically saved to GitHub via Pull Request
	- Data persists even after Space restarts (stored in GitHub)
	- Requires a GitHub token with PR permissions

	💡 Benefits:
	✅ No local setup needed
	✅ Fast evaluation (Space has direct access to data)
	✅ Automatic submission via GitHub PR
	✅ Results verified by maintainers before appearing on leaderboard
	""")

	with gr.Accordion("📖 How it works", open=False):
	gr.Markdown("""
	1. Fill in your API credentials (only used for this evaluation)
	2. Configure your model and settings
	3. Run evaluation - Space processes papers and extracts data
	4. Automatic submission - Results saved to GitHub via PR
	5. Verification - Maintainers review and merge your PR
	6. Appear on leaderboard - Once verified, your results show up!

	Data Persistence:
	- Results saved to `leaderboard/data/submissions/` in GitHub
	- PR created to: `github.com/JackKuo666/LLM-Enzyme-Kinetics-Golden-Benchmark`
	- Merged PRs loaded automatically by leaderboard
	- Space restarts don't affect your data!
	""")

	gr.Markdown("---")

	# GitHub Token for PR creation
	with gr.Row():
	github_token_input = gr.Textbox(
	label="GitHub Token (for PR creation) *",
	placeholder="ghp_xxxxxxxxxxxx",
	type="password",
	info="Create token at: https://github.com/settings/tokens (need 'repo' and 'pr' scopes)"
	)

	# API Configuration
	gr.Markdown("### 🔧 API Configuration")

	with gr.Row():
	api_provider_input = gr.Radio(
	choices=["OpenAI", "Anthropic", "Kimi/Moonshot"],
	value="OpenAI",
	label="API Provider *"
	)
	api_key_input = gr.Textbox(
	label="API Key *",
	type="password",
	placeholder="sk-...",
	info="Your API key is only used for this evaluation and never stored"
	)
	api_base_input = gr.Textbox(
	label="API Base URL",
	placeholder="https://api.openai.com/v1",
	info="Default: https://api.openai.com/v1"
	)
	model_name_input = gr.Textbox(
	label="Model Name *",
	placeholder="e.g., gpt-4, claude-sonnet-4-5-20250929, kimi-k2.5"
	)

	# Evaluation Settings
	gr.Markdown("### ⚙️ Evaluation Settings")

	with gr.Row():
	ocr_type_input = gr.Dropdown(
	choices=["mathpix", "kimi", "pymupdf", "glm_ocr"],
	value="mathpix",
	label="OCR Type *",
	info="Which OCR version to use for evaluation"
	)
	num_papers_input = gr.Slider(
	minimum=1,
	maximum=156,
	value=5,
	step=1,
	label="Number of Papers (Quick Test: 1-5, Full Eval: 156)",
	info="Start with 5 papers for testing, then run full evaluation"
	)

	submitter_input = gr.Textbox(
	label="Submitter Name/Email *",
	placeholder="Your name or email (will be displayed on leaderboard)",
	info="Public information - will be shown on leaderboard"
	)

	run_eval_btn = gr.Button("🚀 Run Evaluation", variant="primary", size="lg")
	eval_output = gr.Markdown()

	def run_evaluation(github_token, api_provider, api_key, api_base,
	model_name, ocr_type, num_papers, submitter):
	"""Run automatic evaluation"""

	if not github_token:
	return "❌ Error: GitHub token is required to create a PR for saving results."

	if not api_key:
	return "❌ Error: API key is required."

	if not model_name:
	return "❌ Error: Model name is required."

	if not submitter:
	return "❌ Error: Submitter name is required."

	# Set default API base if not provided
	if not api_base:
	if api_provider == "OpenAI":
	api_base = "https://api.openai.com/v1"
	elif api_provider == "Anthropic":
	api_base = "https://api.anthropic.com"
	elif api_provider == "Kimi/Moonshot":
	api_base = "https://api.moonshot.cn/v1"

	try:
	evaluator = BenchmarkEvaluator(github_token=github_token)

	# Run evaluation
	success, results = evaluator.evaluate_submission(
	api_key=api_key,
	api_base=api_base,
	model_name=model_name,
	provider=api_provider,
	ocr_type=ocr_type,
	submitter=submitter,
	num_papers=num_papers
	)

	if success:
	# Format results
	msg = f"""
	## ✅ Evaluation Completed Successfully!

	Submission ID: `{results['submission_id']}`

	### 📊 Your Results:
	\| Metric \| Score \|
	\|--------\|-------\|
	\| Overall Exact Match \| {results['overall_exact_match']*100:.2f}% \|
	\| Overall Tolerance (±10%) \| {results['overall_tolerance_match']*100:.2f}% \|
	\| Papers Evaluated \| {results['total_papers']} \|
	\| Total Entries \| {results['total_entries']} \|

	### 📝 Next Steps:
	1. Pull Request Created: Check your email for PR notification
	2. Review: Your results will be reviewed by maintainers
	3. Verification: Once verified, results appear on the leaderboard
	4. Check PR: https://github.com/JackKuo666/LLM-Enzyme-Kinetics-Golden-Benchmark/pulls

	### 💾 Data Persistence:
	- ✅ Results saved to GitHub repository
	- ✅ Persistent even after Space restarts
	- ✅ Version controlled via Pull Request
	- ✅ Safe from data loss

	Note: Your submission is marked as "Unverified" until a maintainer reviews and approves it.
	"""
	return msg
	else:
	return f"❌ Evaluation Failed: {results.get('error', 'Unknown error')}"

	except Exception as e:
	return f"❌ Error: {str(e)}\n\nPlease check your inputs and try again."

	run_eval_btn.click(
	fn=run_evaluation,
	inputs=[
	github_token_input, api_provider_input, api_key_input,
	api_base_input, model_name_input, ocr_type_input,
	num_papers_input, submitter_input
	],
	outputs=eval_output
	)

	gr.Markdown("""
	---
	⏱️ Expected Time:
	- Quick Test (1-5 papers): 2-5 minutes
	- Full Evaluation (156 papers): 30-60 minutes

	💡 Tips:
	- Start with 1-5 papers to verify your setup
	- Check the "Quick Test" box for fast feedback
	- Use the same credentials for full evaluation
	- Results are saved even if you close the tab!

	🔒 Privacy:
	- API keys are never stored in the Space
	- Only used for the duration of evaluation
	- Cleared from memory immediately after evaluation
	""")

	# Tab 4: Submit Results (Manual)
	with gr.TabItem("📤 Submit Your Results"):
	gr.Markdown("""
	### 📝 Manually Submit Your Benchmark Results

	⚠️ Important: Results submitted here are only saved locally (not persistent).
	For persistent storage, use the Auto-Evaluate tab instead.

	Instructions:
	1. Run the benchmark locally: `python scripts/run_benchmark.py --mode full`
	2. Collect your metrics from `evaluation_results/summary.csv`
	3. Fill in the form below
	4. Results saved to `leaderboard/data/` (local only)

	💡 Better Alternative: Use the Auto-Evaluate tab for:
	- ✅ Automatic GitHub PR creation
	- ✅ Persistent data storage
	- ✅ Direct integration with leaderboard
	""")

	with gr.Row():
	model_name_input = gr.Textbox(label="Model Name *", placeholder="e.g., GPT-4, Claude-3.5-Sonnet")
	model_provider_input = gr.Dropdown(
	choices=["OpenAI", "Anthropic", "Kimi", "Other"],
	label="Model Provider *"
	)

	with gr.Row():
	ocr_type_input = gr.Dropdown(
	choices=["mathpix", "kimi", "pymupdf", "glm_ocr"],
	label="OCR Type *"
	)
	submitter_input = gr.Textbox(label="Submitter Name/Email *", placeholder="Your name or contact")

	gr.Markdown("### Performance Metrics (%)")

	with gr.Row():
	km_exact_input = gr.Number(label="Km Exact Match *", minimum=0, maximum=100)
	km_tolerance_input = gr.Number(label="Km Tolerance (±10%) *", minimum=0, maximum=100)

	with gr.Row():
	kcat_exact_input = gr.Number(label="kcat Exact Match *", minimum=0, maximum=100)
	kcat_tolerance_input = gr.Number(label="kcat Tolerance (±10%) *", minimum=0, maximum=100)

	with gr.Row():
	km_kcat_exact_input = gr.Number(label="kcat/Km Exact Match *", minimum=0, maximum=100)
	km_kcat_tolerance_input = gr.Number(label="kcat/Km Tolerance (±10%) *", minimum=0, maximum=100)

	with gr.Row():
	total_papers_input = gr.Number(label="Total Papers Evaluated *", minimum=1, maximum=156)
	notes_input = gr.Textbox(
	label="Notes",
	placeholder="Any additional information about your setup (temperature, prompts, etc.)",
	lines=3
	)

	submit_btn = gr.Button("Submit Results", variant="primary")
	submission_output = gr.Markdown()

	submit_btn.click(
	fn=submit_result,
	inputs=[
	model_name_input, model_provider_input, ocr_type_input, submitter_input,
	km_exact_input, km_tolerance_input, kcat_exact_input, kcat_tolerance_input,
	km_kcat_exact_input, km_kcat_tolerance_input, total_papers_input, notes_input
	],
	outputs=submission_output
	)

	# Tab 5: About
	with gr.TabItem("ℹ️ About"):
	gr.Markdown("""
	## About the Benchmark

	The LLM Enzyme Kinetics Golden Benchmark evaluates the ability of Large Language Models
	to extract structured enzyme kinetic data from scientific literature.

	### Dataset
	- Papers: 156 peer-reviewed publications
	- Entries: 4,244 manually curated enzyme kinetic entries
	- Parameters: Km, kcat, kcat/Km, pH, temperature, mutations
	- OCR Versions: 3 parallel OCR outputs (Mathpix, Kimi, PyMuPDF)

	### Evaluation Metrics
	1. Exact Match Accuracy: Value must match exactly
	2. Tolerance Match (±10%): Value within 10% of ground truth
	3. Scores are calculated for each parameter (Km, kcat, kcat/Km)

	### How to Participate
	1. Clone the repository:
	```bash
	git clone https://github.com/JackKuo666/LLM-Enzyme-Kinetics-Golden-Benchmark.git
	```

	2. Install dependencies:
	```bash
	conda create -n enzyme_benchmark python=3.10 -y
	conda activate enzyme_benchmark
	pip install -r requirements.txt
	```

	3. Configure your API key in `.env`

	4. Run the benchmark:
	```bash
	python scripts/run_benchmark.py --mode full
	```

	5. Submit your results through this leaderboard!

	### Citation
	If you use this benchmark, please cite our repository.
	""")

	gr.Markdown(
	"""
	---
	[GitHub Repository](https://github.com/JackKuo666/LLM-Enzyme-Kinetics-Golden-Benchmark)
	\| [Documentation](https://github.com/JackKuo666/LLM-Enzyme-Kinetics-Golden-Benchmark/blob/main/README.md)
	\| [How to Participate](https://github.com/JackKuo666/LLM-Enzyme-Kinetics-Golden-Benchmark/blob/main/USAGE.md)

	*Last updated: {}
	""".format(datetime.now().strftime("%Y-%m-%d"))
	)


	if __name__ == "__main__":
	demo.launch()