Towards general conceptual model editing via adversarial representation engineering

Towards general conceptual model editing via adversarial representation engineering

Since the rapid development of Large Language Models (LLMs) has achieved remarkable success, understanding and rectifying their internal complex mechanisms has become an urgent issue. Recent research has attempted to interpret their behaviors through the lens of inner representation. However, develo...

Full description

Saved in:

Bibliographic Details
Main Authors:	ZHANG, Yihao, WEI, Zeming, SUN, Jun, SUN, Meng
Format:	text
Language:	English
Published:	Institutional Knowledge at Singapore Management University 2024
Subjects:	Software Engineering
Online Access:	https://ink.library.smu.edu.sg/sis_research/9833 https://ink.library.smu.edu.sg/context/sis_research/article/10833/viewcontent/2404.13752v3.pdf
Tags:	Add Tag No Tags, Be the first to tag this record!
Institution:	Singapore Management University
Language:	English

Similar Items

Defending large language models against jailbreak attacks via layer-specific editing
by: ZHAO, Wei, et al.
Published: (2024)

Towards characterizing adversarial defects of deep learning software from the lens of uncertainty
by: ZHANG, Xiyue, et al.
Published: (2020)

Towards superior control in automatic face editing with generative adversarial networks
by: Zhang, Xijue
Published: (2022)

Attack as detection: Using adversarial attack methods to detect abnormal examples
by: ZHAO, Zhe, et al.
Published: (2024)

White-box fairness testing through adversarial sampling
by: ZHANG, Peixin, et al.
Published: (2020)

Stealthy and efficient adversarial attacks against deep reinforcement learning
by: SUN, Jianwen, et al.
Published: (2020)

Understanding adversarial robustness via critical attacking route
by: LI, Tianlin, et al.
Published: (2021)

Attack as defense: Characterizing adversarial examples using robustness
by: ZHAO, Zhe, et al.
Published: (2021)

Amora: Black-box adversarial morphing attack
by: WANG, Run, et al.
Published: (2020)

Automatic fairness testing of neural classifiers through adversarial sampling
by: ZHANG, Peixin, et al.
Published: (2021)

Evading deepfake detectors via adversarial statistical consistency
by: HOU, Yang, et al.
Published: (2023)

Be a hairstylist - editing hair for face images using generative adversarial network
by: Lim, Wei Ze
Published: (2023)

Physical adversarial attack on a robotic arm
by: JIA, Yifan, et al.
Published: (2022)

Adversarial Learning for Improved Patient Representations
by: Shankar, Bharath, et al.
Published: (2023)

ResumeGAN : an optimized deep representation learning framework for talent-job fit via adversarial learning
by: Luo, Yong, et al.
Published: (2021)

Be a cartoonist : editing anime images using generative adversarial network
by: Koh, Tong Liang
Published: (2022)

Boosting adversarial training in safety-critical systems through boundary data selection
by: JIA, Yifan, et al.
Published: (2023)

Silent compiler bug de-duplication via three-dimensional analysis
by: YANG, Chen, et al.
Published: (2023)

A generalized formal semantic framework for smart contracts
by: JIAO, Jiao, et al.
Published: (2020)

Learning to adversarially blur visual object tracking
by: GUO, Qing, et al.
Published: (2021)

Adversarial specification mining
by: KANG, Hong Jin, et al.
Published: (2021)

Facilitating crowd sourced software engineering via stack overflow
by: BARZILAY, Ohad, et al.
Published: (2014)

System architecture and technology for real-time heterogeneous co-editing
by: Cho, Bryden Da Yang
Published: (2022)

Regret-based defense in adversarial reinforcement learning
by: BELAIRE, Roman, et al.
Published: (2024)

Improved reachability analysis in DTMC via divide and conquer
by: SONG, Songzheng, et al.
Published: (2013)

Towards 'verifying' a water treatment system
by: WANG, Jingyi, et al.
Published: (2018)

ALI-agent: Assessing LLMS’ alignment with human values via agent-based evaluation
by: ZHENG, Jingnan, et al.
Published: (2024)

Towards expressive specification and efficient model checking
by: DONG, Jin Song, et al.
Published: (2009)

Towards optimal concolic testing
by: WANG, Xinyu, et al.
Published: (2018)

Conceptual representation changes in Indonesian-English bilinguals
by: HARTANTO, Andree, et al.
Published: (2016)

Towards unified multimodal editing with enhanced knowledge collaboration
by: PAN, Kaihang, et al.
Published: (2024)

Enhancing domain knowledge sharing via mining software engineering related web resources
by: Gao, Sa
Published: (2022)

Adversarial learning for coordinate regression through k-layer penetrating representation
by: JIANG, Mengxi, et al.
Published: (2024)

Multicomponent adversarial domain adaptation: a general framework
by: Yi, Chang'an, et al.
Published: (2023)

Towards adversary aware surveillance systems
by: Singh, V.K., et al.
Published: (2013)

Applying composition technology to a novel software representation
by: Zhang, Hongyu
Published: (2008)

Personalized microblog sentiment classification via adversarial cross-lingual learning
by: WANG, Weichao, et al.
Published: (2018)

Verifying linearizability via optimized refinement checking
by: Dong, Jin Song, et al.
Published: (2013)

Marketing plan for IBM Production imaging edition
by: Feliciano, Bettina Michaela A., et al.
Published: (2012)

Towards model checking Android applications
by: BAI, Guangdong, et al.
Published: (2018)